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Предисловие 


В предлагаемый сборник включены главным образом работы, 
относящиеся к двум интенсивно развивающимся направлениям 
в распознавании образов: многомерному прогнозированию и ав- 
томатическому пониманию слитной речи. 

Задача прогнозирования понимается здесь, как задача оценки 
состояния или положения некоторого физического объекта на 
основе данных, косвенно характеризующих это состояние. Осо- 
бенность принятого в публикуемых работах подхода к проблеме 
состоит в том, что доступные сведения о влиянии указанных пере- 
менных на оцениваемый показатель, во-первых, существенно од- 
номерны и, во-вторых, как правило, носят качественный характер. 

В сборнике помещены как теоретические, так и прикладные 
работы этого направления. В них метод прогноза исследуется 
для различных способов задания прогнозируемой величины, в част- 
ности путем разбиения экспериментальной выборки на однородные 
и упорядоченные по этой величине классы и путем представления 
прогнозируемой величины дискретным рядом числовых значений. 
Исследуется и возможность применения аппарата проверки ста- 
тистических гипотез для создания метода выявления редуцируемо- 
сти используемых моделей прогнозирования. 

Практическое использование этих исследований иллюстриру- 
ется работами по выявлению связи между тяжестью состояния 
больного и его физиологическими показателями и по прогнозиро- 
ванию естественного режима нефтяного пласта по совокупности 
геолого-геофизических характеристик. 

Перерастание традиционного распознавания речевых образов 
в новое направление — автоматическое понимание слитной речи — 
привело к существенному пересмотру методов представления речи. 

Слитная речь представляется последовательностью слогов 
и отдельных звуков, идентификация которых требует усовершен- 
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ствования техники анализа речи, разработанной для опознания 
изолированно произносимых команд. Результаты идентификации 
объединяются в иерархически организованной системе интонаци- 
онного, слогового, лексического и синтаксического представле- 
ния речи. В работах по теории и практике анализа и синтеза речи 
в сборнике освещается состояние проблемы и приводятся резуль- 
таты ряда оригинальных исследований в этой области. Большое 
значение имеет и проблема представления искаженных сигналов. 
Одно из перспективных направлений в этой области, затрагивае- 
мое в сборнике, состоит в идентификации параметров экспонен- 
циальных сигналов, искаженных нестационарными помехами. 

Сборник завершается работой общего характера, в: которой 
предлагается и обосновывается новая («вариативная») модель 
в распознавании образов, позволяющая, в частности, использо- 
вать в этой области некоторые результаты теоретико-информаци- 
онных исследований. 


В. Г. Гитис 


Об одном классе задач прогнозирования 


В задачах прогнозирования требуется найти связь между прог- 
нозируемым показателем т, который обычно отождествляется 
с состоянием некоторого физического объекта, и переменными 
{2}, =1,..., Г, определяющими это состояние. В более фор- 
мальной постановке требуется в рамках заданной математической 
модели } (х, а) связи между показателем г и вектором переменных 
х найти такую оценку параметров «&, при которой г = Ј (х, а). 

Существует ряд задач прогнозирования, в которых показатель 
г не поддается объективному измерению, а задается с помощью 
экспертных оценок. Такие задачи встречаются в области медицин- 
ского и технического прогнозирования [1—3], в экономике, социо- 
логии и психологии [4, 5]. Часто в этих задачах экспертная оцен- 
ка показателя г может быть введена лишь с помощью разбиения 
всех реализаций экспериментальной выборки на однородные и упо- 
рядоченные по этому показателю классы о, ©», .. оо: В этом 
случае меру соответствия прогнозируемого показателя г и прог- 
ноза ў (22, ©) можно ввести, потребовав, чтобы решающее правило 
9, найденное по учебной выборке с использованием модели 
} (2, а), позволяло в некотором смысле наилучшим образом клас- 
сифицировать и упорядочить элементы контрольной выборки в со- 
ответствии с экспертными оценками показателя г. Если для век- 
тора параметров &@* упорядоченность элементов контрольной 
выборки по решающему правилу достаточно близка к упорядочен- 
ности этих же элементов по экспертным оценкам, то будем считать, 
что прогноз }(х, а) с точностью до монотонной функции соответ- 
ствует прогнозируемому показателю г. 

Определим критерий качества решающего правила. Введем 
ке потерь 5 (п, |5), п = 1, .... М 9 = 1, б, 
41, ол О. Которая характеризует потери, возникающие при 
отнесении реализации 014 Е ®; к классу ®, по решающему пра- 


вилу 0. Качество решающего правила можно оценить эмпиричес- 
КИМ саса аде 


те. У У зе (1) 


га п=]1 


где № = } №. — общее число элементов выборки. 
4—1 


Заметим, что отнесение реализации Х„, К классу Ф һ вызывает 
нарушение отношения порядка реализации %,, для [9-х | 
классов. Например, если реализация х1, отнесена решающим пра- 


вилом Ө к классу юр ИЛИ 0-р, ТО В том и другом случае имеет 
место нарушение отношения порядка реализации %,„, для р клас- 


сов: соответственно 0р, №442, .. Фар ИЛИ юр Фо... 

Фе Поэтому особенностью функции потерь © (пт | А) 

по сравнению с задачами классификации, в которых нет необхо- 

димости в сохранении отношения порядка, является требование 

быть невозрастающей функцией от / при А < у и неубывающей 
функцией при / 7 7, т. е. 

та (А) при а Ч, 
О, при А = 9, (2) 


5 та (А) при К в Ч. 
Так как функции та (А) и эпо (К) являются монотонными, то 


для любого А их можно представить в виде сумм, состоящих из 
неотрицательных элементов: 


й-—-1 
Әзпд (А) к Э 5140? 
Е 
бал, (8) = У. ПРИЕ 1 37 | (3) 
рт 


где элементы ѕ, р характеризуют потери, возникающие при нару- 
шении отношения порядка реализации =, для класса ор. 


При выборе функции потерь необходимо учесть то обстоятель- 
ство, что ошибки классификации по найденному решающему пра- 
вилу могут быть вызваны не только «ошибками алгоритма», 
связанными с неточностью математической модели, с неточностью 
измерений переменных {2;}, с представительностью учебной вы- 
борки и т. д., но ошибочной классификацией самого эксперта. 
Ошибки эксперта могут быть обусловлены как недостатком ин- 
формации при разбиении выборки на классы, так и тем, что в по- 
добных задачах само понятие «класс» часто является весьма ус- 
ловным, что в общем случае делает безошибочную классификацию 
выборки экспертом принципиально невозможной. 

Рассмотрим два примера выбора функции потерь. Пусть для 
каждой реализации Хи. © ®4 функция потерь линейно зависит 
от числа классов, для которых произошло нарушение порядка, 
т.е. 5 (т | А) = $ та |0 —^|. При этом элементы пар Зависят 
только от номера реализации, вызвавшей нарушение порядка, 
Т. Ө. 8пор == 81, Подобная функция потерь обычно вводится в тех 
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случаях, когда эксперт классифицирует и упорядочивает реали- 
зации выборки с различной степенью уверенности и предполагает, 
что потери 5„» при нарушении отношения порядка данной реа- 
лизации одинаковы для любого класса р => 4. Во втором примере 
для всех реализаций х, Є в. положим 5 (п. | А) = 0 при Є 
Е -- ЦИТ Пир пар) = 3 ай Трио 
9, 9 1 1}. Этот способ задания функции потерь соответствует 
довольно типичной ситуации, когда эксперт не в состояний дать 
четкую классификацию выборки и вынужден вводить так называе- 
мую слабую упорядоченность классов. При этом эксперт исходит 
из предположения, что при разбиении им выборки на классы в лю- 
бой класс 0; могли попасть неизвестные ему реализации сосед- 
них классов‘ 41 И @0+1: 

Рассмотрим алгоритм нахождения решающего правила, мини- 
мизирующего эмпирический средний риск (1). 

Построение решающего правила 0 можно представить в виде 
двухэтапной процедуры: нахождение функции у = } (х, 9) 
некоторого класса функций, задаваемого моделью связи прогно- 
зируемого показателя г с вектором переменных х, и выбор на чис- 
ловой оси у порогов Да, задающих границы классов. Для любого 
заданного вектора параметров & пороги П, могут находиться 
путем минимизации (1). Найденное значение условного минимума 
эмпирического риска (1) примем в качестве меры соответствия 
прогноза у == ј (х, @) и прогнозируемого показателя г. Безуслов- 
ный минимум эмпирического среднего риска (1) может быть най- 
ден варьированием / (х, а) по параметрам а с определением опти- 
мальных порогов П, для каждого а. 

При заданном векторе параметров © решающее правило можно 
определить с помощью (0 — 1 порогов следующим образом: у, = 


== 01 при Упа < П, Упа Ес 02 при р 9 Упа < р», 9 Ута Е 
Е оо при Поу < Упд- Такой способ введения решающего прави- 


ла требует выполнения условия упорядоченного расположения 
порогов на числовой оси у, т. е. требуется 


Рь< 0, при Ё<1. (4) 


С учетом (2) — (4) функцию потерь 5 (п, | А) можно представить 
в следующем виде: 


@—1 
5 (т |) = У нь (ину <Р) + зана (уча > Вы) (5) 
р=1 
где 
О при у», 2 ПО. дли всех ре... 
(у. < Рь) = } 0 при у„,< Ор для Р>4, (6) 


1 при Уһ < Пр Для р< 9; 


О при И а = Р. дли вх. ‘ра 1, О, 
Г (Уп, >> Юр) = 0 при Ута > Р, для р с Ч, 
| 1 при у», > [р для р 2 1. 
(7) 


_С учетом (5) — (7) функционал (1) может быть переписан в сле- 
дующем виде: 


о № 9 
В = = ух [пор Г (У, = Ор) ая 5п 4+1 Г (У, > 0ь)] а 
9=1 п=1 р=1 
0—1 9 С 
== т | | ў ўз пар Г. (Ут, = Пр) Е уЎ У, па?" +1 Г ( (Уз, > р, |. 
р=1 9=р--1 п=1 Ч==1. П= 


(5) 

При нахождении условного минимума среднего риска (8) 
по порогам {0} для любого заданного вектора параметров а 
требуется, чтобы найденные пороги удовлетворяли условию (4). 
Покажем, что при 5 р == $, Выражение (8) допускает незави- 


симую минимизацию по каждому из порогов. Обозначим через 
ар такое значение порога 4, что. 


В» (4%) = ша В, (а), 
а 


(9) 
где 
07 4 
В, (4) = 9 У Гу, <) + уў (у, 20). (10) 
=р-Е1 п=1 =1 п=1 


Рассмотрим взаимное расположение порога 4х и порогов кіт, 
т =1,.... О —– К — 1. При 4 < брт для всех т условие (4) 
для порога 4х выполняется и принимается Д, = Е. 

Покажем, что если хотя бы для одного т имеет место ак > аку, 
то коррекция Й = и {Чт} сохраняет минимальное значение 
функционала (8). 

Подсчитаем значение 

© 


р № 
В, (кът) Е" 24 24 х 510 Ут 4 деа) =} 


= р х би, «(Ут > Чт) = яа 
[а] М 


= У Мы „у < Фет) + 
а=К--т--1 п=1 


к-т № 


РАСЕ у 


4=1 п=1 (41) 


кт Ма 


д, У 5141 (Уһ, с кът) т 


ке У У ий (Уп > кът) == Акт (Фкът) -- 


крт № 


4 № У Зп, [2 (Уп, = Фи) — |Р (У бы 


а=+-1 и—1 


Из условия 
Рат (Фм -- 8) >> Анни (т) при е2 0, (12) 


которое имеет место в силу того, что порог акт в сог- 
ласно (9) для р = Г т, и условия 


к-т 


Ма ЕЯ ж 
У Уз, Ш < дк та) — Рук, > Фет 8) 22 
4=К--1 п=1 9 ,. 
срт Ма , 
25 р У бп [Г (Ут < кт) — Г. (Ув ‚ > Окат)] при #0 
а=к-- 
(13) 
следует 
А, (Фат -- &) > АД, (5. в 2> 0, (14) 


Пусть 4; = акт -+ 8. При этом А, (4%) = Д, (Ф: 8) < 
<А}, (4к.т), так как порог 4к является точкой минимума функ- 
ционала (9) для р = Е. Следовательно, при а; е Чт согласно 
(14) возможно лишь А, (4+) = В» (дт А г) = А, (бк). 

Доказанное верно для любого т =1,..., О К — 1. Сле- 
довательно, если порог 4х находится правее нескольких порогов 
дат, то очевидно, что коррекция Й, = тір {Чклт} не изменяет 

т 


значения функционала (9) для р = К. 
Поскольку с учетом (8) и (10) 


9—1 
4 
В = № у Вр (Ор), (15) 
р=1 


то нахождение порогов согласно (9) с последующей их коррекцией 
соответствует нахождению условного минимума среднего риска 
при выполнении ограничения (4). 

Таким образом, нахождение порогов {2р} при заданном век- 
торе параметров « сводится к последовательному решению задач 
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одномерного поиска минимума (9) для р = 1, ..., О — 1. Это 
значительно упрощает вычисление меры соответствия прогноза 
7 (х, а) прогнозируемому показателю г. 

Алгоритм минимизации эмпирического среднего риска состоит 
из двух основных блоков: поисковой процедуры, определяющей 
выбор вектора параметров «©, и достаточно простой процедуры вы- 
числения условного минимума функционала (8) для заданного век- 
тора @ с использованием соотношения (9). Коррекция порогов тре- 
буется только на этапе выдачи окончательных результатов. Функ- 
ционал (8) является разрывным и в общем случае многоэкстре- 
мальным по %. Для поиска вектора %, соответствующего точке гло- 
бального минимума функционала, может быть использована одна 
из процедур глобальной оптимизации многопараметрических 
функций методом случайного поиска. 

Рассмотрим способ задания функции потерь, соответствующий 
введению слабой упорядоченности классов. Пусть для всех реа- 
лизаций х, Є @0, 9 = 1, ..., О, функция потерь 5 (п, | й) = 0 
при Ес {4 — 14 04-41) и 25 (9 1-6) а 04 при 
Кє {д — 1, 9, 9 | 1}. Так как в этом случае эмпирический сред- 
ний риск (1) не изменяется при нарушении отношения порядка 
для соседних классов, то при заданном векторе параметров а 
целесообразно отказаться от поиска границ для разделения пар 
классов 0; и 02, в И 003, ..., Фоли 00. Это приводит к умень- 
шению числа порогов {2.} на единицу. Решающее правило при 
заданном векторе © имеет вид у, Є ©; |] ә при уһ, = Р 
Ут. © 9 0 ®з при Р: зу, < Рә, ..., у, Є 99 0 во при 
ВРо- е. Упа 

Вычисление меры соответствия прогноза 7 (х, @) и прогно- 
зируемого показателя г, как и в предыдущем случае, сводится 
к процедурам одномерного поиска. Но при этом выражение 
(10) заменяется на 


"у 5 Ў д (Ут, о У. „(уп 2 9), (16) 


4==р--2 п=1 4=1 т=1 


в котором при поиске порога 4» исключается класс орн. В осталь- 
ном алгоритм минимизации среднего риска не изменяется. 

Значительное упрощение алгоритма отыскания минимума 
среднего риска (1) может иметь место при выполнении следующих 
предположений: 1) прогноз } (х, &) является линейным по пара- 
метрам @, т. е. }(х, а) = аТф (х); 2) существует такой вектор 
9*, для которого Е. (4) = 0, р = 1, ..., О — 2. Әто означает, 
что существует вектор @*, для которого все проекции векто- 
ров, соединяющих точки различных классов ва И в, больше 
нуля. 

При выполнении сделанных допущений задача поиска вектора 
@*, минимизирующего (1), сводится к нахождению одного из ре- 
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шений совместной системы линейных неравенств 


от [Ф (хар) — Ф (хи, )1 >> 0, 
4 =1,.... 0—2, К = 2, ..., О — 9, т = 1, ..., А оі 
о Т РА У 


которое может быть получено с помощью итерационных алгорит- 
мов, детально разработанных в распознавании образов [6]. 
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Модифицированный метод 
наименьших квадратов при решении задач 
прогноза с дискретной прогнозируемой 
величиной 


Известен целый ряд задач прогнозирования, в которых значе- 


ния прогнозируемой величины ограничены конечным (дискрет- 
ным) числом значений. Возможный путь решения таких задач сос- 
тоит в нахождении функционального соответствия (прогнозирую- 
щей функции), устанавливающего приближенную зависимость 
между дискретной прогнозируемой величиной и. значениями прог- 
нозирующих величин. 
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В качестве прогнозирующих функций будем рассматривать 
функции вида | 


Р 2 
1 (0, У) = 21 Өг: (У), (1) 
а= 
где Ө = (0,, ..., 0)? — вектор параметров, подлежащих опре- 
делению; У — вектор прогнозирующих переменных; ф; (У) — за- 
данные функции векторного аргумента, причем Ф; (У) = 1 (т. е. 0, 
является свободным членом). 


Задачу нахождения прогнозирующей функции будем понимать 
как задачу выбора вектора, обеспечивающего наилучшее в неко- 
тором смысле совпадение между дискретной прогнозируемой 
величиной г и ее прогнозом } (0, У). 

Известным методом нахождения прогнозирующей функции 
является метод наименьших квадратов [1], который может быть 
применен также и для случая, когда прогнозируемая величина 
является дискретной. Другой подход к решению рассматриваемых 
задач изложен в [2]. Согласно методу наименьших квадратов, ис- 


комый вектор Ө в (1) находится по экспериментальной выборке 
из условия минимума суммы квадратов 65°: 
М 
9° = № (7 21 7 (0, Ў 2), (2) 
п=1 
где гли У, — значения прогнозируемой величины и вектора прог- 
позирующих переменных в м-м эксперименте; № — число элемен- 
тов в выборке. 

Специфика рассматриваемых задач состоит в том, что дискрет- 
ная прогнозируемая величина г разбивает всю выборку на классы, 
число которых равно числу различных дискретных значений прог- 
нозируемой величины. Поэтому, наряду с желанием минимизи- 
ровать сумму квадратов (2), естественное желание состоит в том, 
чтобы прогноз / (0, У„) для класса с прогнозируемым значением 
г концентрировался вокруг именно этого значения, а не около ка- 
кого-нибудь другого. Рассматривая / = 7 (0, У) и г как случай- 
ные величины, последнее требование можно записать в виде ус- 
ловия 


о аср (9) 


где М (//7) — математическое ожидание величины ј при заданном 
г. В других терминах М (ў/т) есть регрессия величины } на г. Ус- 
ловие (3) означает, что регрессия М ([/г) должна быть линейной. 

В реальных ситуациях, однако, мы всегда имеем дело с конеч- 
ной выборкой. Поэтому теоретическую линейную регрессию 
М (1) следует заменить выборочной линейной регрессией / (т), 
а условие (3) заменить условием 


1 (г) = г. (4) 
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Учитывая сказанное, сформулируем критерий оптимальности 
для рассматриваемой здесь задачи. Будем считать оптимальным 
такой вектор 0 в (1), который минимизирует сумму квадратов (2) 
при условии (4). Уточним условие (4). Так как уравнение линей- 
ной регрессии } на г имеет вид / (г) = а + бт, то условие (4) рас- 
падается на два условия: 


0 вт | (5) 


где, как известно, 


а=, В = (Р-Р [210 — #) (6) 


Г = (17%) Хуга, Га = 6, 97 ГА 5 (Ш) 2. 


тп. 


В свою очередь условие (5) с учетом (6) можно переписать в виде 


230 та) =0, тв (т) = 0. (7) 


п, 


Как известно, минимизацию функционала (2) при условиях (7) 
можно заменить минимизацией безусловного функционала #Ё: 


В = 2100 — ть — 2А ть (фь — гы) — 28 23 (фь — т»), (8) 


где А и и — неопределенные множители Лагранжа. 
Полученный при этом вектор 0 и будет искомым вектором, 
минимизирующим выражение (2) при ограничении (4). 


Обозначив 2; = Ф; (У»), 2; = (1/№) Ў) Ф; (Ү,), выпишем необ- 
у п 
ходимые условия минимума /: 


дЕ 09, — ТО == у Ер == 2.2; = 0, = 1, 9 р, 
ӘРӘМ = 2 Ут, (а т,) = 0, (9) 
дР [ды = 2 (7 —гь) = 0. 


Перепишем (9) в матричной форме 


(ХІХ) Ө = ХВ + цМХ, . ВТХӨ = ВТА, г? = ХТӨ, (10) 
где Х = (7„;) — матрица размера МХ Р, Х = (6, ..., бь)Т 
и А = (г, ..., гм)Т — векторы размерности Р и №, х = А + 1. 


Предполагая, что матрица (ХТХ) * существует, и умножая ее 
слева на первую формулу (10), получим 


9 =х (ХТХ)! ХТА + рМ (ХТХ)Х. (11) 
С учетом обозначений 
6 = (ХТХ)-1ХТ В, е = М (ХТХ)1Х (12), (13) 
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перепишем (11): 
9 = х0 + це. (14) 


Отметим, что вектор 0 минимизирует сумму квадратов РАЯ 
если снять ограничение (4) (это следует из (11) при А = р = 0 


Другими словами, 0 есть вектор, к которому приводит метод наи- 
меньших квадратов. 
Вектор е имеет вид: 


О (бр ае за 6 =, 00. О, (15) 


Чтобы убедиться в этом, обозначим ХТХ = (2;;), ОЕ 
= (51). Заметим, что р; = №, так как хи = фу (У,) = 1. 
Элемент =” обратной матрицы (ХТХ) 1 можно записать как 


А) — С: 31| ХІХ |, 


где (;; — алгебраическое дополнение элемента #;; прямой матри- 
цы ХТХ. Компонента е; вектора е равна 


а= МУ г?з, = Уе — рр |х7х | пат бн |0 да, 
) 


Отсюда следует (15). 
В скалярной записи выражение (14) с учетом (15) принимает 
следующий вид: 


0. = х0, Ри, 0; = х0; 1=2,...Р. | (16) 


Формулы (16) дают простую связь компонент искомого вектора 


Ө с компонентами вектора 0, полученного по методу наименьших 
квадратов. 
Аналогично получим связь прогнозирующей функции [/, = 


= У0;х,;]| с функцией [7 = У, баи] найденной по методу наимень- 
і і 


ших квадратов: 


Р Р 
а = 9, | У Ө;2,.; == У У 0:5, -- Ц == х}, —- и. (17) 
| . 1—2 1—1 


Неопределенные множители х и р можно найти, подставив 
(14) во вторую и третью формулы (10) х — (ВТА — — №?)/(ВТХӨ — 
— №), ц = ғ — хХТб. Обозначив 


59 = Ў (г — Р)? = ВВ — М, (18) 
9 – У 7% 2 36, т —В'В—(Х6)' ХӨ (19) 
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и учитывая известные в методе наименьших квадратов соотноше- 
Туд Ат уд - _ ТА 
ния А ХӨ = (ХӨ) ХӨ, Г = Х 0, получим окончательно 


х = 52/ (5 — 8), р = —т9?/ (82 — 8%). (20) 


Из (20) непосредственно следует, что 1/х является квадратом 
(выборочного) множественного коэффициента корреляции между 
величинами г и 2; (і = 1, ..., Р). А 

Отметим, что так как величины ў и ў связаны линейным соот- 
ношением (17), а коэффициент корреляции инвариантен относи- 
тельно линейных преобразований коррелирующих величин, то 
коэффициенты корреляции гсј игсўј равны друг другу. Из мето- 
да наименьших квадратов известно [1], что коэффициент корре- 
ляции между ги ў достигает максимума по всем прогнозирующим 
функциям вида (1) и равен множественному коэффициенту корре- 
ляции. Отсюда следует, что в классе функций (1) рассматриваемый 
здесь метод прогнозирования также максимизирует коэффициент 
корреляции между ги ў, и величина этого коэффициента корреля- 
ции равна 1/И х. 

Другую интерпретацию для х можно получить, рассмотрев 


линейную регрессию / (7) величины } на г: 
(п) =@ + ё, (21) 


где коэффициенты линейной регрессии д и б в соответствии с (6) 
равны: 


а == ў бг, б) У 7, (22) 
т) 


Подставляя в (6) величины /, — ТР = х (}, —– }) и ј = хў + и 
и учитывая условие (5), получим соотношение для хи џ: 


= 5 0 00, У 0. 


“| 
| 


>] 


(23) 


Сравнение (22) и (23) показывает, что 0 = — р/х и Б = 1/х. 
Таким образом, величины —р/х и 1/х являются коэффициен- 


тами линейной регрессии 7 (г) АА 
Получим выражение для суммы квадратов (2), соответствую- 
щее найденному вектору 0. С учетом второй формулы (7) имеем 


= >» 01). с УЬ з У". 
т, А. И 
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С учетом (17) и первой формулы (23) 
№ у быв 0-Р т). 


Используя обозначения (18), (19) и соотношение метода наимень- 


ших квадратов у= [= 8° — 5, получаем БУ = и (87 — 
т, п, 


— 65%) 4- №. 
Окончательно, с учетом первой формулы (20) и (18), имеем 
(93): И ИИИ” 
= (52 $2} ане ЕА, (24) 


Полученные результаты показывают, что предложенный метод 
решения задачи прогнозирования с дискретной прогнозируемой 
величиной сводится к небольшой модификации метода наимень- 
ших квадратов. Это позволяет. при нахождении параметров прог- 
нозирующей функции использовать стандартные программы ме- 
тода наименьших квадратов с последующим пересчетом парамет- 
ров по простым формулам (16), (20) и (24). 

Представляет интерес сравнение предложенного метода прог- 
нозирования с методом наименьших квадратов. Ясно, однако, что 
для сравнения нельзя использовать критерий суммы квадратов 
(2), так как без ограничения (4) этот критерий не учитывает дис- 
кретной специфики рассматриваемой задачи. Коэффициент кор- 
реляции между прогнозируемой величиной и ее прогнозом также 
нельзя использовать, Так как было показано, что он одинаков 
для двух сравниваемых методов. Очевидно, для сравнения следует 
взять критерий, который бы не был связан с «внутренними» 
критериями сравниваемых методов. 

акой критерий легко получить, воспользовавшись следую- 
щим обстоятельством. Прогноз по формуле (1) дает значение 
непрерывной величины, которую следует превратить в дискрет- 
ную. Естественный способ дискретизации состоит в том, что 
значение непрерывной величины ј, округляется до ближайшего 
допустимого значения [/,|] дискретной прогнозируемой величины. 
Критерием качества прогнозирования может служить число оши- 
бок прогнозирования, равное числу случаев, для которых [1,1 = 
= Г. 

Экспериментальное сравнение изложенного здесь метода с ме- 
тодом наименьших квадратов производилось на материале задачи 
с дискретной прогнозируемой величиной, описанной в [3]. 

Число ошибок в первом случае оказалось на 18% меньше, 
чем во втором случае. Заметим, что уменьшение числа ошибок 
связано не с увеличением числа свободных параметров алгоритма 
прогнозирования, а с более правильным выбором критерия ка- 
чества в случае дискретной прогнозируемой величины. 
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Статистический анализ 
модели прогнозирования, использующей 
одномерные нелинейные преобразования 


Прогноз скалярной величины г, согласно методу прогнози- 
рования, основанному на использовании одномерных нелиней- 
ных преобразований, ищут по критерию наименьших квадратов 
в виде [1] 


#0) = (У 4: (2), (1) 


где Х = (ау, ..., др) — вектор прогнозирующих переменных; 
ди ф; — одномерные монотонные функции, подлежащие опреде- 
лению по выборке экспериментальных данных. 


При решении конкретных задач прогнозирования может, од- 
нако, оказаться, что связь между прогнозируемой величиной и пе- 
ременными 2; описывается более простой зависимостью, чем (1). 
Возможна, например, аддитивная или даже просто линейная 
зависимость. Поэтому при решении практических задач может 
возникнуть вопрос, обладает ли модель (1) реальным преимущест- 
вом перед более простыми моделями прогнозирования. 

В настоящей статье на материале задач медицинского и сейсми- 
ческого прогнозирования [1—3] производится сравнение модели 
(1) с ее частными случаями: Н\, Н», Н;: 


1 
Ни: (Х = а У ат, (2) 
1==1 
І 
Но: |» (Х) = УФ (7;), (3) 
= : 
На: 15 (Х) = (+ Уа), не б 
прапа | мев 
Ооа 1 | 17 


где диф; — функции того же класса, что ив (1); а; — параметры 
линейной формы. 


В предположении о том, что вид функций 2 и ф; в (1) опреде- 
ляется некоторым числом свободных параметров 0,, выражения 
(2) — (4) можно получить, налагая определенное число связей на 
эти параметры. Действительно, пусть, например, функция 2 = 
= 2 (у) задается значениями 2 (у) = 0, в нескольких точках 
Ук, а в остальных точках получается линейной интерполяцией 
соседних значений 2 (ук). Тем самым вид функции 2 полностью 
определяется набором параметров 0,. Таким образом, условие 
2 (у) = у, приводящее (1) к (3), сводится к заданию связей вида 
9, = уһ. Аналогично получим, что выражения (2) и (4) также 
являются результатом выполнения некоторого числа соотноше- 
ний, связывающих между собой свободные параметры в (1). 

Указанное обстоятельство позволяет задачу о выборе того или 
иного прогнозирующего выражения свести к задаче проверки 
заданных соотношений, связывающих параметры 0,. Как известно, 
последняя задача может быть решена методами проверки статисти- 
ческих гипотез [4—7]. 

В соответствии с логикой проверки статистических гипотез 
выражения (2) — (4) рассматриваются как гипотезы Н., Н,, Нъ, 
которые следует либо принять, либо отклонить. Может оказаться, 
что все гипотезы (2) — (4) отклоняются, тогда прогнозирование 
на основе выражения (1) будем считать оправданным. В другом, 
крайнем случае, когда ни одна из гипотез (2) — (4) не отклоняется, 
целесообразно принять самую простую из них, т.е. гипотезу 
Н; о линейном прогнозе. 

Отметим, что задача о сокращении числа переменных 2; в вы- 
ражениях (1) — (4) также может быть решена в рамках проверки 
статистических гипотез. В этом случае соотношения, связывающие 
свободные параметры, должны привести к гипотезе Ф; (5;) = 0 
для некоторой группы переменных 2;. Если гипотеза принимает- 
ся, то указанная группа переменных не является существенной 
для прогноза. Если гипотеза отклоняется, то это значит, что в ука- 
занной группе имеются существенные переменные, которые нель- 
зя отбросить [7]. 

В настоящей работе в качестве статистического критерия, на 
основании которого принимается либо отклоняется гипотеза, ис- 
пользуется критерий дисперсионного отношения (Ё-критерий). 

Дисперсинное отношение, как известно, имеет вид 


(5% — 53(М№ — р) 


Р === В $ (5) 
М 
где 5? = тіп (`„—/(Х„)) — безусловная сумма квадратов (в от- 
п==]1 


сутствни связей на параметры); р — суммарное число независимых 
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м 

параметров в модели прогнозирования; би = ши (т, — Їн (Х„))? — 
а =. = 

условная сумма квадратов (при наличии связей, налагаемых ги- 

потезой Н); тн — число связей, налагаемых гипотезой Н; № — 

число выборочных реализаций. 


При этом гипотеза И отклоняется, если Г превосходит значение 
критической точки Гкр, взятой из статистических таблиц, в про- 
тивном случае Н принимается. Применительно к рассматривае- 
мому случаю гипотеза /7 — одно из выражений (2) — (4), 5? 
и р относятся к выражению (1), бн — к выражениям (2) — (4), 

тн = р — рн, рн — число независимых параметров в выраже- 
ниях (2) — (4). 

Как известно, использование Ё-критерия требует выполнения 

‚следующих допущений: 


а) предполагается, что конкретный набор значений величин 
ги Х является результатом одного из М независимых испытаний, 
причем для п-го испытания прогнозируемая величина 7, рассмат- 
ривается как случайная величина, имеющая нормальное распре- 
деление с математическим ожиданием Мт. = / (Х „) и неизвестной 
дисперсией, одинаковой для всех п; 

б) предполагается, что как зависимость функции /(Х) от 
параметров, так и связи, налагаемые гипотезой являются линей- 
ными по параметрам. 

В практических задачах вряд ли следует ожидать, что эти 
допущения выполняются строго. Так, например, распределение 
величины г, (допущение а)) может отклоняться от нормального. 
Однако, как отмечено в [5], это обстоятельство не является доста- 
точной причиной для отказа от применения статистического кри- 
терия, поскольку вследствие действия центральной предельной 
теоремы даже значительное отклонение от нормальности приво- 
дит лишь к небольшому смещению /-отношения. 

Первая часть допущения б) о линейности 7 (Х) по параметрам 
также не выполняется. Тем не менее, если в определенной области 
пространства параметров степень нелинейности по параметрам 
незначительна, то и погрешность статистического вывода будет 
незначительной [6]. Вторая часть допущения б) о линейности 
связей, налагаемых гипотезой, выполняется при условии, что 
одномерные функции 2 и Фф; линейны по параметрам. 

— Контроль нелинейноети. Рассмотрим способ контроля нели- 
нейности функции по параметрам при проверке гипотезы вида 
(2) — (4). Для удобства дальнейшего изложения функцию / (Х) 
будем обозначать как 7 (0, Х), где Ө = (9,, ..., Өр) — р-мерный 
вектор параметров, подлежащий определению. Степень отклоне- 
ния функции / (9, Х) от функции, линейной по параметрам Ө, 
можно оценить с помощью разложения 7 (0, Х) в ряд Тейлора 
по 9. Для фиксированного вектора Х»„ разложение } (0, Х,) 
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в точке 0, учитывающее только линейные члены, имеет вид 


Ўл (9, Хз) = 1 (0, Хр) 29 а} (9, ЛА | (6) 
где 
т 9300, Х,) А 
ал, х) = У) 6, — бы (7) 
и—1 9 


является дифференциалом по Ө для ] (0, Х,). 
Рассмотрим две суммы квадратов: 


М 
50) = У (70, Х,)*, (8) 
Е 
5% (0) = У (к — 11 (6, Х,))?, (9) 


о о о 
Если бы функция ] (0, Х) была линейна по 0, то 5° (0) = 5х (0). 
В случае нелинейной зависимости величина 


(9) = [5° (0) — 5 (0) | (10) 


может служить мерой линейности функции ] (9, Х) по 0 в области 
пространства параметров, включающей две точки 0 и Ө [7]. 

При проверке гипотезы в качестве 0 выберем точку, минимизи- 
рующую безусловную сумму квадратов, а в качестве 9 — точку, 
минимизирующую условную сумму квадратов при гипотезе М. _ 
В этом случае џ (0) будет мерой нелинейности функции ] (0, Х) 
по 0 при проверке гипотезы /. Если џи (0) мало, то 5” (0) = 
— 52 (0), и любую из этих величин допустимо использовать в ка- 
честве Эн в /-отношении; в противном случае использование 
5? (0) или 5% (0) в /-отношении недопустимо. 

Уточним выражение (6) для случая, когда 7 (Х) имеет 
вид (1). Записав (1) в виде сложной функции / (Х) = 2 (у (Х)), 

І 


(а у Ф; (2;) и используя свойство инвариантности дифферен- 

1—1 Е 
циала сложной функции, представим сложный дифференциал (7) 
в виде суммы двух частных дифференциалов 


где 
д д2 х ^ х 
Ч = 5-5 ЧУ = бу ак) 9 Оа) — У (Х,)). (13) 
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В (12) и (13) функции 2 и д соответствуют вектору Ө, миними- 
зирующему безусловную сумму квадратов, а 2 и у — вектору Ө, 
минимизирующему условную сумму квадратов для гипотезы Ё. 
Подставив (11) — (13) в (6), получим окончательно 


08, Х,) = 20 |5, Эф) (14) 


Алгоритм нахождения функций, входящих в выражение (14), 
приведен в [1]. | 

Экспериментальное сравнение моделей при решении задач 
медицинского и сейсмического прогнозирования. Модель (1) ис- 
пользовалась для решения задачи прогнозирования тяжести 
состояния больного после операции на легких по дооперационным 
показателям и задачи прогнозирования максимальных энергий 
землетрясений на территории Кавказа [1—3]. 

Результаты проверки гипотез Н\, Нь, Из, отвечающих выраже- 
ниям (2) — (4), даются в таблице. Критические значения Ёкр 
приведены для однопроцентного уровня значимости (т. е. допус- 
кается, что в одном проценте случаев вывод об отклонении модели 
вида (2) — (4) является ошибочным). 

Во всех случаях значение меры нелинейности (10) составляло 
не более 5% от величины 5° (0), что свидетельствует о допустимо- 
сти применения /-критерия в рассматриваемых задачах. 


Медицинская задача. Сейсмическая задача. 
5 == 390" № = 128: 2—5 Ва = 99. М = 94: ре 90) 
Гипотеза 
8 РН Е | Ек р 8% Р Н | Е Ек р 
На 1470 т |4,4 |21 406 11 |282 | 21 
Но 960 20 3,2 0 20а 16 ЭТ, 3,6 
Из --- — | — — 119 15 4.19 | 3,3 


Рассмотрим сначала задачу медицинского прогнозирования. 
Из таблицы следует, что гипотезу Я, о линейной связи следует 
отклонить, так как величина Л в два с лишним раза превосходит 
значение р. Для гипотезы Н. значение К не превышает значе- 
ния кр, т. е. гипотеза не отклоняется. Другими словами, введе- 
ние в формулу прогноза функции 2 вряд ли целесообразно. 

Проверка гипотезы Н. не имеет смысла, так как при отсутст- 
вии в (4) функции 2 гипотеза НЯ. совпадает с гипотезой Н, которую 
мы уже отклонили. Таким образом, можно заключить, что в дан- 
ной задаче для прогноза тяжести состояния больного целесообраз- 
но использовать выражение (3). 

Рассмотрим теперь задачу сейсмического прогнозирования. 
Из таблицы видно, что для каждой из гипотез значение К превы- 
шает значение Ркр, поэтому все они отклоняются. Следовательно, 
представляется оправданным использование выражения (1) для 
прогнозирования энергий землетрясений на Кавказе. 
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Анализ связи между тяжестью 
состояния больного 
и его физиологическими показателями 


В практике лечения ряда заболеваний часто возникает необ- 
ходимость выяснить связь между тяжестью состояния больного 
и его физиологическими показателями. Знание такой связи могло 
бы быть полезным как для врача-клинициста, обладающего опре- 
деленным опытом оценки состояния больного, так и для физиоло- 
га, занимающегося выяснением информативности измеряемых 
показателей и желающего минимизировать их число при разного 
рода экспертизах. 

Качественный характер связи между клиническим состоянием 
больного и физиологическими показателями в общем известен: 
чем тяжелее состояние больного, тем в большей степени наруше- 
пы его физиологические показатели. Представляет интерес раз- 

работать подход к нахождению количествепной связи между общей 
клинической оценкой состояния больного и объективно измеряе- 
мыми физиологическими показателями. 

Попытка разработки такого подхода излагается в пастоящей 
статье на примере задачи пахождения связи между тяжестью кли- 
нического состояния и показателями внешнего дыхания у боль- 
ных хронической пневмонией. 

В процессе исследования решались следующие вопросы: 
1) выбор математической модели связи, 2) отбор наиболее сущест- 
венных физиологических показателей, 5) проверка возможности 
‘упрощения выбранной модели связи. 
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Экспериментальный материал был взят из историй болезней 
145 больных, обследованных и лечившихся в клинической боль- 
нице Государственного института усовершенствования врачей 
г. Еревана. По тяжести состояния больные были разделены на 
5 групп на основании клинических признаков нарастающей ле- 
гочной недостаточности [1]. 

В качестве объективно измеряемых физиологических показате- 
лей, отражающих нарушения внешнего дыхания, взяты: 1) число 
дыханий в минуту, 2) минутный объем дыхания (МОД), 3) коәф- 
фициент использования кислорода (КИО,), 4) прирост углекис- 
лоты во время выдоха в альвеолярном газе (ЛСО,д), 5) жизненная 
емкость легких (ЖЕЛ), 6) отношение резервных объемов выдоха 
и вдоха (РОыд/РОзд), 7) объем форсированной жизненной ем- 
кости легких за первую сек (ФЖЕЛ,), 8) максимальная вентиля- 
ция легких (МВЛ), 9) мощность вдоха (Мл), 10) мощность вы- 
доха (Мыл). Все показатели за исключением ФЖЕЛ,, АСО,д 
и КИО, были взяты в процентах к норме 1. 

Выбор математической модели и нахождение связи. В настоя- 
щее время не существует общепринятой модели, достаточно точно 
отражающей характер связи физиологических показателей с кли- 
нической оценкой тяжести состояния больного. В этой ситуации 
при построении математической модели связи мы исходили из 
следующего принципа: выбрать наиболее простой класс функций, 
учитывающий все качественные соображения, известные врачу 
о характере этой связи, и затем ввести все обоснованные с меди- 
цинской точки зрения ограничения, накладываемые на пара- 
метры этих функций. 

При выборе класса функций было использовано предположение 
о нелинейности связи. Врачебный опыт показывает, что равное из- 
менение показателя в разных зонах его значений в общем случае 
приводит к неодинаковым изменениям тяжести состояния больного. 

Достаточно простым классом функций, учитывающим допуще- 
ние о нелинейности, является класс, представленный в виде 
суммы одномерных нелинейных функций [2]: 


І 
Ре... т) = У Фе), 


где 2; — значение і-го показателя, Фф; (2;) — одномерная (нелиней- 
ная) функция, / — число рассматриваемых показателей. 

При выборе ограничений на параметры одномерных нелиней- 
ных функций Ф; (2;) было использовано предположение о монотон- 
ности связи и о границах нормы показателей. Врачебный опыт 
показывает, что чем сильнее отклонен показатель от нормы, тем 


1 Нормальной (должной) величиной называется среднее значение показателя 
для здорового человека в соответствии с его ростом, полом, возрастом. 
Границами нормы для легочных объемов считают отклонения на | 15% 
(-- 20%) от средней должной величины, принимаемой за 100%. 
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при прочих равных условиях тяжелее состояние больного. Изме- 
нение же показателей в границах нормы практически не связано 
с изменением тяжести состояния больного. Поэтому допустимыми 
считались функции Ф; (2;), не уменьшающиеся при отклонении 
показателя от нормы и постоянные в границах нормы. 

Модель связи между тяжестью состояния и физиологическими 
показателями, выбранная с учетом сформулированных предпосы- 
лок, имела следующий вид: 


І 
ње) во) + (== 1, 0..3 №), 


где г, — тяжесть (номер группы) состояния для п-го больного; 
Хһ; — Значение 1-го показателя для п-го больного; в, — ошибка 
связи для п-го больного; № — общее число больных. 

Функции Фф; (2;) вычислялись по выборке больных в классе 
кусочно-линейных функций по методу наименьших квадратов. 

Одновременно с поиском функций производился отбор показа- 
телей 2;, наиболее существенно связанных с тяжестью состояния 7. 
Для этой цели использован шаговый алгоритм выбора показате- 
лей [3]. При этом заключение о существенности выбранного набора 
показателей выносилось на основании Ё-критерия [3, 4]. 

При проверке возможности упрощения выбранной модели кон- 
курирующей моделью, содержащей меньшее число подбираемых 
параметров, являлась модель, предполагавшая линейность функ- 
ций Ф; (2;) за пределами нормы. Проверка этого предположения 
также производилась на основе /-критерия. 

Как уже упоминалось ранее, в данной задаче тяжесть клини- 
ческого состояния больного оценивалась по условной дискретной 
шкале: 1, 2, 3, 4, 5. Можно предполагать, что, получив оценку 


І 
связи } (2) = Уо, (2;), врач будет округлять ее до ближайшего 
1—1 

целого с тем, чтобы полученная оценка также имела дискретный 
вид. В связи с этим меру качества прогноза было бы целесообраз- 
но связать не только с «теснотой» корреляции ги ў, но и с числом 
ошибок, полученных при округлении значений ў (2) до ближайше- 
го целого. Это обстоятельство учитывается в модифицированном 
методе наименьших квадратов [5]. Он позволяет за счет некоторо- 
го ухудшения абсолютной точности приближения (остаточной 
суммы квадратов) получить меньшее количество ошибок при ок- 
руглении прогноза до ближайшего целого при неизменном коэф- 
фициенте корреляции ги ў. Для этого функции Ф; (5;), получае- 
мые по методу наименьших квадратов, достаточно откорректиро- 
вать по весьма простым формулам. 

Обсуждение результатов. На рис. 1 приведены графики зави- 
симости Р-отношения от числа показателей, отбираемых шаговым 
алгоритмом регрессионного анализа, и график критических зна- 
чений „р для 10%-го уровня значимости. Из рисунка видно, что 
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Е-отношение становится ниже 10%-го уровня хр, начиная с трех 
отобранных показателей. Это означает, что гипотеза о сущест- 
венности первых трех показателей, отобранных алгоритмом, 
может быть принята на 10%-ом уровне значимости. 

Тремя показателями (в порядке важности, в котором они были 
отобраны алгоритмом) оказались: ФЖЕЛ., КИО, и Мы. На 
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рис. 2 графики функций Ф; (2;) для этих показателей даны пункти- 
ром. Отобранные по статистическому критерию физиологические 
показатели не противоречат медицинской точке зрения о важности 
этих показателей внешнего дыхания для оценки легочной недо- 
статочности данного заболевания. 

Для отобранных показателей на основании /-критерия была 
проверена гипотеза о линейности функций Ф; (х;) за пределами 
нормы. Значение /-отношения для этой гипотезы оказалось рав- 
ным 1,14, что не превосходит 10%-й уровень Лк», равный 1,5. 
Следовательно, гипотеза о линейности функций Ф; (2;) за преде- 
лами нормы не отвергается. Соответствующие этому случаю графи- 
ки Ф; (2;) для трех указанных показателей изображены на рис. 2 
непрерывными линиями. Из рис. 2 видно, что нелинейные функ- 
ции весьма близки к линеаризованным функциям. В то же время 
вывод о том, что функции Ф; (2;) являются линейными за пре- 
делами нормы нельзя признать окончательным из-за малого экс- 
периментального материала. | 

Сравнительная диаграмма оценок г и оценок ў, полученных 
с помощью модифицированного метода наименьших квадратов, 
приведена на рис. 3. Оценки ] рассчитаны для функций Ф; (2;), 
линейных за пределами нормы. Коэффициент корреляции между 
ри г оказался равным 0,82. Аналогичные результаты были получе- 
ны при разбиении экспериментальной выборки на учебную и кон- 
трольную серию. По данным рис. З было подсчитано число больных, 
у которых округленная до ближайшего целого оценка / от- 
личалась от Клинической оценки г на единицу. Число таких боль- 
ных оказалось равным 58 (44% от общего числа больных). Для 
трех больных расхождение между оценками было равно двум. 
Для остальных больных оценки совпадают. 

Приведенные результаты показывают, что между клинической 
оценкой тяжести состояния и физиологическими показателями 
внешнего дыхания данной категории больных имеется достаточно 
тесная связь. Об этом говорит относительно высокое значение 
коэффициента корреляции, а также малое количество грубых оши- 
бок (т. е. случаев, для которых округленное значение ў отличается 
от клинической оценки г более чем на единицу). 
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Т. А. Бадалов 


Применение метода одномерных нелинейных 
преобразований для прогнозирования 
естественного режима нефтяного пласта 


Среди важнейших факторов, связанных с эксплуатацией неф- 
тяных скважин, следует отметить режим пласта. Режим нефтя- 
ного пласта характеризует вид пластовой энергии, которая обус- 
ловливает приток жидкостей и газа к эксплуатирующимся сква- 
жинам. Он определяется как физико-геологическими природными 
условиями, так и условиями разработки и эксплуатации место- 
рождения [1]. : 

В связи с составлением технологической схемы весьма важно 
на ранней стадии разработки определить характер источников 
пластовой энергии, которыми располагает месторождение (естест- 
венный режим пласта). Определение естественного режима пласта 
сильно затруднено из-за отсутствия в этот период промысловых 
данных, характеризующих изменение пластового давления, де- 
бита нефти, газа, воды, динамику продвижения контура нефтенос- 
ности и т. д. В начальной стадии разработки о возможном режиме 
пласта можно судить только пс геолого-физическим свойствам 
пород-коллекторов и свойствам насыщающих флюидов. 

Настоящая работа проведена с целью оценки возможности 
прогнозирования естественного режима пласта по совокупности 
геолого-физических признаков, имеющихся в начальный период 
разработки нефтяных месторождений, а также для установления 
связи между прогнозируемой величиной и признаками. 

В качестве экспериментального материала были использованы 
данные Института проблем глубинных нефтегазовых месторож- 
дений АН Азербайджанской ССР о нефтяных залежах Азербайд- 
жана, находящихся в завершающей стадии эксплуатации. Задача 
нахождения связи между естественным режимом пласта и геолого- 
физическими признаками решалась с помощью метода одномер- 
ных нелинейных преобразований, разработанного в Институте 
проблем передачи информации АН СССР [2—6]. 

В процессе решения задачи анализировалось 90 залежей нефти 
основных месторождений Апшеронского полуострова: Балаханы- 
Сабунчи-Раманинского, Сураханского, Биби-Эйбатского, Калин- 
ского, Бинагадинского, Маштаги-Бузовнинского, Чахнаглярско- 
го, Сулутепинского, Шабандагского. Разработка этих залежей 
осуществлялась при очень уплотненной сетке скважин (1— 
2 га/скважину) на естественном режиме. 

Исследовалось влияние на режим основных геолого-физичес- 
ких свойств пород-коллекторов и пластовой нефти, таких, как: 
1) вязкость нефти; 2) логарифм проницаемости пород-коллекто- 
ров; 3) расчлененность разреза; 4) песчанистость в процентах; 
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о) цементация (ТУ фракция гранулометрического анализа -- кар- 
бонатность) в процентах. 

Для прогнозирования использовалась следующая классифи- 
кация естественных режимов нефтяных залежей: 1) водонапорный 
режим (Т класс); 2) смешанный режим (П класс); 3) режим раство- 
ренного газа (ПТ класе). 

При этом прогнозируемое состояние (режим) связывалось с 
числовой величиной г — номером класса. Исходя из общих пред- 
ставлений о влиянии основных геолого-физических свойств пород- 
коллекторов и пластовой нефти на естественный режим залежи, 
можно предположить, что при такой последовательности располо- 
жения классов их номера монотонно зависят от геолого-физических 
признаков. Так, например, из [1] следует, что уменьшение песча- 
нистости при прочих одинаковых условиях связано с увеличени- 
ем номера класса. 

При прогнозировании предполагалось, что связь между ес- 
тественным режимом пласта и геолого-физическими признаками 
описывается следующей моделью: 


І 
Ї (21, 22, ..., т) = Уе (2), 


1=1 


где {2;} — геолого-физические признаки пласта; Фф; — искомые 
нелинейные` одномерные монотонные функции; і — номер приз- 
нака. 


Функции Фф; находятся из условия минимума математического 
ожидания квадрата разности между прогнозируемой г и прогно- 
зирующей ў величинами. Алгоритм нахождения функций ф; из- 
ложен в [3]. 

Руководствуясь соображениями выбора более простой модели, 
рассматривалась эффективность линейной модели по сравнению 
с указанной моделью. Такое сравнение было произведено на основе 
использования Ё-критерия [6, 7]. Оказалось, что дисперсионное 
отношение ГР, равное 4,86, превышает значение Ёр = 1,98 на 
уровне значимости 5%. На этом основании гипотеза о линейном 
характере зависимости была отвергнута. 

При решении данной задачи наряду с получением прогноза 
было важно определить наиболее существенные геолого-физиче- 
ские признаки. С этой целью применялся алгоритм шагового вы- 
бора параметров [7], в котором оценка значимости признаков 
производилась по Ё-критерию. По степени важности признаки ока- 
зались расположенными в следующем порядке (в скобках указа- 
но дисперсионное отношение Г): песчанистость (75,4), вязкость 
(23,5), расчлененность (1,9), проницаемость (2,1), цементация 
(1,7). При включении в модель трех последних признаков диспер- 
сионное отношение Ё становится меньше Ркр= 2,73, что говорит 
о несущественности этих признаков для прогнозирования. Таким 
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образом, для прогнозирования достаточно взять два признака: 
вязкость и песчанистость. 
№. Графики полученных функций Ф;, соответствующих призна- 
кам вязкости и песчанистости, приведены на рис. 1 (номера функ- 
ций на рисунке соответствуют 
первоначальным номерам при- 
знаков). Эти графики имеют су- 
щественно нелинейный харак- 
тер. Бехи — 
График" функции Ф, связан- : 
ный с вязкостью, условно можно 
разбить на три участка: сред- 
ний — в пределах которого из- 
менение вязкости не приводит 
к изменению прогноза, правый 2 
и левый — где с увеличением 
вязкости влияние функции Ф; 
на прогноз возрастает. 
Уменьшение песчанистости 
до 20%, как видно из графика 1 
фа на рис. 1, не вызывает изме- 
нения в режиме нефтяных пла- 
стов, однако при дальнейшем 
снижении влияние песчанисто- рис. 2 
сти на прогноз проявляется в 
весьма сильной степени. 
Качество прогнозирования оценивалось нормированной сред- 
неквадратичной ошибкой прогнозирования 
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тдег; и Ў; — экспериментальное и предсказанное значение прогно- 
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зируемой величины для і-й реализации выборки; Г — среднее экс- 
периментальное значение прогнозируемой величины; № — число 
реализаций в экспериментальной выборке. 


Значение А оказалось равным 0,386. Для дополнительной 
проверки качества прогнозирования экспериментальный матери- 
ал был разбит на учебную и экзаменационную выборки и на 0с- 
нове прогнозирующих функций Фф, и фа, вычисленных на материа- 
ле учебной выборки, был осуществлен прогноз для этих выборок. 
Далее результат прогнозирования сопоставлялся с режимами, 
фактически существующими в пластах. Результаты такого сравне- 
ния приведены на рис. 2, где кружочками обозначены реализации 
учебной выборки, точками — экзаменационной. Из рисунка вид- 
но, что естественный режим нефтяного пласта с достаточной точ- 
ностью можно прогнозировать по данным геолого-физического 
описания, имеющимся в начальный период разработки. 
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К использованию алгебраических приемов 
идентификации систем для анализа речи 


Для улучшения качества речи, искаженной помехами, и для 
представления элементов слитной речи нужно идентифицировать 
акустическую модель речеобразования и входные сигналы этой 
модели. Нестационарный и нелинейный характер точной модели 
вынуждает исследователей искать такие представления речевого 
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сигнала, которые допускали бы артикуляторную интерпретацию 
и простые процедуры оценивания параметров приближенных мо- 
делей. Способ построения упрощенной модели, несмотря на ка- 
жущуюся доступность анализу артикуляторных действий говоря- 
щего, до сих пор остается предметом споров. Единственное, что, 
как кажется, начинают признавать все исследователи, — это не- 
адекватность энергетического спектрополосного препарирования 
тонкой временной структуры речевого сигнала. Предположение 
о существенности медленных изменений параметров колебатель- 
ных компонент и несущественности тонкой временной структуры, 
как не влияющей на разборчивость речи, передаваемой по телефон- 
ному каналу, оказалось безвредным лишь в технике синтетической 
телефонии. Многие из описанных явлений, сопровождающих изме- 
нения темпа речи, оказались артефактами сонографа. | 

Попытки автоматического выделения сочетаний сигналов, отож- 
дествляемых с признаками фонем, продолжаются, но уже без 
особого энтузиазма. Хорошо воспроизводимыми элементами слит- 
ной речи оказались фрагменты сигнала, близкие к слогам, особен- 
но типа согласный — гласный (СГ). Сообщения об успешных опы- 
тах по автоматическому обнаружению этих слогов поступают из 
многих лабораторий [1—3]. 

Стремление повысить разрешающую способность анализаторов 
состава сигнала привело к переходу от классических методов ана- 
лиза непрерывных сигналов к современным приемам дискретного 
анализа, в частности к алгебраическому аппарату теории систем 
[4, 8]. Использование рекуррентных соотношений этой теории по- 
зволяет ограничить время формирования суммы е колебаний до 
Е = 2е |-1 отсчетов дискретной шкалы времени. Этот предел 
быстродействия достигается распараллеливанием обработки ‚ не- 
сколько отсчетов сигнала выступают при этом как единый вектор. 
Характеристики системы представляют при этом переходной мат- 
рицей, формула преобразования эквивалентна предсказанию 
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Предсказание и„ = У) аи; требует знания вектора коэффи- 

| = 
циентов — @. Проверку адекватности представления модели порож- 
дения сигнала линейной системой со стационарной переходной 
матрицей можно произвести без вычисления коэффициентов пред- 
сказания. Достаточно заполнить отсчетами сигнала матрицу Ган- 


31 


келя и вычислить ее определитель 
ИИ тт + + + Ип-р-—1Ип-р 


Ит-1Ит-2. +. Ит-р-2Ит-р—1 (2) 


Шт-рИһ-р-1° + + Шп-9р-10Ип-2р: 

Если определитель этой матрицы равен нулю, то это означает, 
что последние 2р -|- 1 отсчетов сигнала порождались линейной си- 
стемой со стационарной переходной матрицей. Практически значе- 
ния сигнала искажаются помехой, что приводит к флуктуациям 
значения этого определителя даже там, где порядок системы доста- 
точен для представления текущих отрезков сигнала. В те моменты 
времени, когда условие достаточности не выполняется, этот опреде- 
литель уклоняется от нуля, образуя характерные всплески. Са- 
мые мощные всплески отмечают моменты смыкания голосовых свя- 
зок, где резко меняются как начальный вектор, так и порядок си- 
стемы. Моменты размыкания связок, подключения и отключения 
носовой полости сопровождаются менее интенсивными всплесками. 

Так же, как и в исследованиях подобного метода, основанного 
на вычислении определителя Грама [5, 6], возникают трудности 
с определением допуска на уклонение определителя от нуля, так 
как динамический диапазон значений определителя очень велик. 
Были предприняты вычислительные эксперименты с использова- 
нием перемешивания отсчетов [7] перед заполнением определителя 
и использованием определителя с перемешанными отсчетами при 
задании доверительных интервалов. для значений неперемешанно- 
го определителя. 

Если определитель (2) разложить по элементам первой строки 
(или столбца), то получится уравнение линейного предсказания 


О У М6] 
где А — адъюнкты. 


Сравнение и, ий, и нескольких других комбинаций, предска- 
занных 4+1, һ+ѕ, С ИСТИННЫМИ позволяет вычленить в сигнале мо- 
менты смыкания голосовых связок и отрезки свободных колебаний 
значительно увереннее, чем непосредственно по полному опреде- 
лителю ганкелевой матрицы, и с большей точностью, чем при ис- 
пользовании определителя Грама. Пример членения приведен на 
графиках рис. 1, где показаны осциллограммы сигнала, кривые 
определителей ганкелевой матрицы разных порядков, что нужно 
для оценки ранга переходной матрицы порождающей системы, 
и ошибки предсказания. Эти кривые указывают на полезность ку- 
сочно-стационарного представления акустической модели речи, 
параметры которой должны оцениваться синхронно с работой го- 
лосовых связок. 

Артикуляторные движения, пренебрегая изменениями на участ- 
ке свободных колебаний, можно описать моделью, определяю- 
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2 
А адам 


Рис. 1. Пример членения речевого сигнала 


а — участок перехода в сочетании ну; б — значение определителя ганкелевой матрицы 
3-го порядка; в — модуль значения определителя ганкелевой матрицы 7-го порядка; 
г — модуль ошибки предсказания 


щей эти движения, можно продолжить это расчленение моделей 
и далее, выделяя блоки, описывающие отдельные функции, и бло- 
ки, обеспечивающие взаимодействие этих функций. При такой де- 
композиции всегда сохранится блок, имитирующий акустические 
процессы в речевом тракте. Для ускорения самонастройки этой 
модели в свою очередь потребуются измерительные процедуры, 
способные оценивать отдельные параметры формантных колеба- 
ний независимо от всех остальных и на коротком отрезке сигнала. 
Геометрический подход здесь также оказывается эффективным. 

Рассмотрим, например, одну колебательную компоненту 
х (пт) = Дет" соѕ (опт | $). Значения ее отсчетов связаны с 
принятыми параметрами колебаний &, б следующими соотноше- 
ниями: 


Ти = 123-4 О 050 з. л = 26759005 ОТ, ар = — е8", 
0 1 2 
п, 
=== — р 
61 


аә а] 

По записи колебания = (пт) можно сформировать последова- 
тельность векторов ЁС,, &,,..., п. Тогда на плоскости с координа- 
тами (2, 2+1) синусоидальное колебание изобразится эллипсом, 
а экспоненциально модулированное синусоидальное колебание — 


аа == 
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Рис. 2. Геометрическое пред: 
ставление сигнала 


спиралью. Геометрические характеристики этих кривых можно 
использовать для оценивания параметров по короткому отрезку 
сигнала. 

1. Оценка постоянной времени 6. Площадь треугольника, об- 
разованного на плоскости (5х, 2+1) концами векторов 5, Ел, 


Е ло (рис. 2, а), записывается через отсчеты сигнала = (пт) по фор- 
муле 


1 


ый х +1 


Р п == | Хр+ ил ар. 


Отношение площадей Р, и Р; на спирали зависит от посто- 
янной времени 6: Р/Р, =е 5". 

Для повышения помехозащищенности на отрезке из М отсчетов 
сигнала постоянная времени определяется с накоплением до 
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деления по формуле 


_ М5 №М—5 
68° = Ў; Раа | У, Р.Р удз. 
т=1 


п=1 


Полученную оценку можно использовать для компенсации за- 
тухания. Остальные параметры определяются по незатухающе- 
му колебанию у (пт) = = (пт)её"" = А соѕ (опт -- 1). 

2. Оценка амплитуды А. Для последовательных отсчетов синусо- 

2 
идального колебания у (пт) справедливы выражения Уп. 1 — УвУп-2 = 


= Д? біп? фт,  УлУллз — Ул1Ул-2 = —2А? т? от соѕ ФТ, откуда 
(УпУ из — Уля иньа)/ (У эка УЧ пл) = — 260$ т. 
Мгновенное значение амплитуды определяется из выражения 
2 __ А ба — Ё 
2002 — Уаз) — (Уаз — УУ) в. 


На отрезке из № отсчетов амплитуда оценивается по формуле 


Д? == У О.У, | У Ц РТИ (3) 
п=1 


п=1 
где М = № — 3. 


3. Оценка частоты Ф. На плоскости (у, Уһ) синусоидальное 
колебание у (ит) изображается эллипсом (рис. 2, 6), большая ось 
которого повернута относительно оси у, на угол л/4. Соотношение 
полуосей эллипса определяется частотой ® и интервалом дискре- 


тизации т. Перейдем к системе координат (р, 9): р» = у/У 2 + 
Ну 2, а, = —и„/У2 + у,-./И2. По двум точкам эллип- 
са Ё, (Ри, 9) и 5+; (рь, 91-1) можно определить отношение его 
полуосей (В,/А,) = (02.1 — 9)/(р* — рол). Подставив в эту 
формулу выражения для координат р и 4, получим 


їо? (67/2) = (—У» + 20уһь — Уп+2)/(уһ А 2уа+і + Упала) = 
= 01У. 


Для № отсчетов сигнала величина ёо? (07/2) определяется по 
выражению, аналогичному (3) при М = № — 2 

А. Оценка начальной фазы р. От последовательности векторов 
5. с координатами (р, 4) можно перейти к последовательности век- 
торов Ё» на плоскости (р’, 4’) (рис. 2, в), при этом эллипс преобра- 
зуется в окружность. Координаты векторов связаны соотношения- 
ми рп = Ри, Ҹһ = 9/45 (07/2). 

Если затем сделать поворот осей координат на угол — (Фф, +- 
4$) = — [07/2 + (п — от + Ар] и перейти к координатам 
(р", 9”), то получим для вектора Ё; координаты р» = А,, 9п = О или 
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в развернутом виде 
Ри 005 (Фь -- $) — Ф зіп (ф 4) = А,, 
Ри эт (Фь -- р) + 9 соѕ (фь + Ф) = 0. 


Записав аналогичную систему уравнений для вектора Ёл и 
подставив выражения для ри и 0һ через отсчеты сигнала у (пт), 
получим 


Ид А, (у, Ул) 482 (97/2) 
ір? (05/2) (Ул г ат) ня (У Ба уь) 2 


(02 (07/2) (Уа А Ул)? А (Ул Ул)  “' 


Используя формулу для косинуса суммы двух углов, можно 
получить мгновенную оценку начальной фазы 1: 


Я Р соѕ Ф.у — О соѕ Фф, 
а Рѕіп Фу — Озір ф, 


соѕ (Фл -- Ф) Е" р 


соѕ (фи -- %) = 


== 17. 


Для № отсчетов сигнала іе ф определяется по формуле, анало- 
гичной (3) при М = № — 2. 

Процедуры измерения параметров компонент сигнала объеди- 
няются вместе с процедурами моделирования процесса генериро- 
вания сигнала, с процедурами обнаружения моментов смыкания 
голосовых связок и фильтрации компонент в схеме анализа через 
синтез, которую, как ожидается, можно будет дополнить моделя- 
ми артикуляции, просодики и т. д. и получить универсальный 
алгоритм автоматического представления речевой деятельности 
человека. 

Относительно структуры этого возможного алгоритма можно 
высказать следующие предположения. Поскольку произноситель- 
ной единицей является слог, то объектами анализа должны быть 
план произнесения слога и те отдельные параметры, которые свя- 
заны с диалектными и с индивидуальными особенностями гово- 
рящего, с влиянием на слог более крупных произносительных еди- 
ниц, таких, как слово, словосочетания и фразы. 

Если все, что было связано с выбором слога и его параметров, 
рассматривать как постоянный вектор-параметр, задающий весь 
процесс на протяжении длительности слога (длительность входит 
как одна из величин, составляющих этот вектор-параметр), то от- 
сюда последует невозможность линейного совместного представ- 
ления и оценивания параметров и состояния [9]. Это означает, 
что все подходы к такой задаче должны быть типа настраиваемой 
модели, т. е. иметь итеративный характер. Схему настраиваемой 
модели можно составить так, чтобы отделить общечеловеческое от 
индивидуального. Так все фильтры, преобразователи и т. д. мож- 
но расчленить на пары блоков, один из которых — основной, 
опорный, «смысловой», другой — «индивидуальный», который 
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связывает конкретную реализацию сигнала с опорным блоком. 
Одно из требований к опорному блоку — удобство оценивания. 

Такое представление парами блоков можно развить на всех 
уровнях начиная с акустики. Например, известны пересчеты пара- 
метров речевого тракта мужчины в параметры речевого тракта 
женщины или ребенка [10], коартикуляции, интонаций и т. д. 

Реализация настраиваемой модели потребует создания эффек- 
тивных вычислительных методов, в которых должна учитываться 
специфика речеобразования. 
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Алгоритм 
совместного рекуррентного оценивания 
параметров речевых сигналов 


Разработка оптимальных методов сокращенного представле- 
ния речевых сигналов может быть сведена к задаче синтеза уст- 
ройств оптимальной идентификации исходной параметрической 
модели речеобразования. Наиболее эффективным методом при этом 
является одновременное совместное определение всех параметров 
модели по наблюдаемому сигналу. Вместе с тем в целях упроще- 
ния структуры синтезируемых устройств процедуру оценивания 
обычно разбивают на два этапа: идентификация модели речевого 
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тракта и оценивание параметров модели источника звукового воз- 
буждения. Решение задач каждого этапа может производиться 
последовательно, когда на втором этапе используются результа- 
ты первого, и параллельно (независимо), когда задачи двух эта- 
пов рассматриваются как раздельные. 

Естественно, что упрощение синтезируемых устройств при по- 
следовательном и параллельном двухэтапном оценивании дости- 
гается за счет некоторого снижения эффективности. 

Процедуры оптимального независимого оценивания парамет- 
ров рассматривались в литературе. Так, в работах [1, 3] сравни- 
тельно подробно исследованы вопросы синтеза оптимальных и 
субоптимальных устройств выделения основного тона, а также по- 
строения устройств выделения сигнала возбуждения следящего 
типа [2]. 

В ряде работ синтезированы схемы оптимального оценивания 
локально-постоянных параметров модели речевого тракта [4, 5]. 

Синтез алгоритма совместного оценивания в литературе не 
рассматривался. Вместе с тем такая задача представляет опреде- 
‘ленный интерес, так как ее решение устраняет известное противо- 
речие между стремлением повысить точность оценивания парамет- 
ров речевого тракта и необходимостью знания сигнала возбуж- 
дения для осуществления такого улучшения. 

Для облегчения решения указанной задачи целесообразно 
использовать рекуррентные алгоритмы, которые удобно синтези- 
ровать, применяя теорию марковской фильтрации. Разработка 
оптимального устройства оценивания позволяет не только предста- 
вить структуру оптимального анализатора, но и выявить наибо- 
лее целесообразные для практики упрощения. С таких позиций, 
например, были синтезированы упрощенные алгоритмы рекуррент- 
ного оценивания, рассмотренные в [6]. 

В одном из наиболее общих случаев речевой сигнал = (#) и 
сигнал звукового возбуждения ў ($1) связаны интегральным уравне- 
нием 


2(0 = | 1, (в и) 2 (и) ди | В, (в, т) 7 (т) дт, (1) 


где й, (9, 1), А; (9., Г) — импульсные реакции цепи обратной 
связи и прямой цепи. | 
В несколько более простом варианте можно положить 
й; 9, Е) = 6 (1 — В, тогда 
! 
(9 = | №. (0, и) = (и) ди 4-0 (0). (2) 
0 | 
Для параметризации уравнения (2) представим импульсную 
реакцию в виде ряда 
р. (0,1) =9 Ф (Ё), | (3) 


їде Ў, = (9, (1, 9, (1, ..., 9» (917 — вектор параметров модели 
А м ^_ Г Р? т 
речевого тракта, Ф () = [Ф (#),... Ф (ИУ, {Ф (Оу — 
ансамбль ортогональных с произвольным весом функций. 
Модель (2) является довольно общей. Так, при выборе в ка- 
честве ф; дельта-функций можно получить обычное уравнение ав- 
торегрессии — модель линейного предсказания. В случае, когда 
ортогональные функции обладают неперекрывающимися и при- 
мыкающими друг к другу спектрами, приходим к некоторому ана- 


логу полосного вокодера [7]. 
Из (2), (3) следует 


== (2, і) - (1 — у) а, | 6, (4) 


где 2; = = (№; 25 — траектория = (#); ОЗЕРЕ = (1 — ха + 
+ п, =] (0) — сигнал звукового возбуждения с основ- 
1 


ным ТОНОМ 8;; = (20, Ё) = [21,..., 25], 2; (В == 7 (+ — и) х (и) и; 
0 


а; — процесс, управляющий амплитудой $,; п, — шумовое воз- 
буждение — белый шум с дисперсией 0; 
1, если основной тон отсутствует. 
= | 0, если произносится озвученный участок речи. 


Наличие в модели (4) случайных процессов 9, и п; обусловлива- 
ет стохастический характер 2;. 

Наибольшие затруднения вы{ывает построение модели 4;8;. 
Здесь возможны несколько подходов. Рассмотрим один из них. 
Представим сигнал основного тона в виде ряда Фурье 

М 


а (К) < (к) (к) 
ал, = ХА, + ть) іп (оё В? ФР), (5) 
К=1 
где № — количество гармоник ряда, 0р, Др — частоты и амплиту- 
ды гармоник в отсутствии модуляции, ри», В" процессы, 
к 
управляющие звуковым возбуждением при артикуляции, В! + 
К « 

+ фі) = Өй, Ф — случайное колебание фазы гармоники за 
счет неточности модели, а также вследствие нестабильности опор- 
ных генераторов анализатора. 

(К) рю 

7 Г. 


Введем следующие предположения о 9, В”, Ф. 

Ії. Параметры являются независимыми случайными процес- 
сами. 

П. Параметры модели удовлетворяют следующим стохасти- 
ческим уравнениям: 


48, = — Е, + бойу (#), 
49, = — Рева -- Соду (2) -- Соат (2), 
ав, = — Р.В! + бойт (0), ар, = — Еъ0,0 + бобу (0), (6) 
аф, = Сат, (#), 
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где Ө,, В,, 20;, Фф; — векторы-столбцы № х 1; Ёз, Ра, Ёр, бә, бв, 
ар, С, диагональные матрицы с элементами, известными априори; 
То (2), в (0), "р (2), о (2) — векторы-столбцы (М х 1) независимых 
винеровских процессов. 


Правомерность такого предположения относительно парамет- 
ров уравнения (5) в какой-то мере подтверждается эксперимен- 
тальными данными [8]. В связной речи, однако, все параметры 
могут изменяться скачкообразно. В этом случае применение (6) 
приведет к некоторому «размазыванию» скачков, тем не менее пе- · 
реход к моделям с непрерывно изменяющимися параметрами удоб- 
но производить начиная с простых случаев типа (6). 

ПТ. Будем считать, что эффективная полоса пропускания це- 
пи обратной связи схемы слежения за А-й гармоникой основного 
тона такова, что в полосу захвата попадает лишь одна гармоника. 

Принятые предположения дают возможность решить задачу 
синтеза методами теории нелинейной марковской фильтрации в 
гауссовском приближении. Следует, однако, заметить, что это 
предположение правомерно здесь лишь в режиме высокой апосте- 
риорной точности, так как в (5) присутствует нелинейность. По- 
строение оптимальных структур в негауссовском случае, как пра- 
вило, приводит к необходимости значительного увеличения ан- 
самбля оцениваемых параметров. Вследствие этого представля- 
ется целесообразным проведение синтеза анализатора для уста- 
новившегося режима; начальные условия в этом случае могут за- 
даваться некоторым устройством «грубого измерения», функцио- 
нирующим на начальном интервале времени. В качестве такого 
устройства может быть использован нелинейный фильтр, разрабо- 
танный для оценивания локально-постоянных параметров, или 
любое другое устройство (например, для получения начальной 
оценки мгновенной частоты основного тона можно использовать 
один из известных методов выделения сигнала основного тона). 

Используя в рамках принятых ограничений методику теории 
нелинейной фильтрации [9], можно получить следующие уравне- 
ния для оценок искомых параметров и семиинвариантов апосте- 
риорного распределения: 


2К 


і 
91 = — Рава -[ уру 8% (20, #), 
РЕ Оаа а ао иес ТИКЕ 
2] 9. 9 (1 5 у) Г) еа № 0? 0° 9 
201 — у) К) А 
(К) _ (К), (К) Ө (К 
трг = — Ев тр р т [А + ть Је х 
х 603 (0 -- 9), (7) 
д Е РР ^ 
(Е (К) (К өө К (к) 
Ө; ) — — Рв тһ) ув у [Ах —- т. РХ Л &; СОВ (оѓ т. Ө; 5 
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201 —%) КЧ, 


7 (К (к) (Е А р 
"Р; ) = == Гу р; ая )), 


К з. = 


> (К 1 К К К) (К 
Көө = (08° -- С) — 2 К№— 
1 —у ^ (К К 
7 [4-4-0 2 (К )2, 


1 ; 
Кро = ->_ 68) — РКО — РОК — 


87 
Г: 8, 
га и ГА, + тр х КаэКев, (8) 
№ 
8, = 2, — та (20, і) — (1 — Уу) я [Ак -- ту ри | зіп (0; -- Ө Ө), 
К=1 


где 170+, тар, 9‘, рю — оценки параметров %;, Я ӨХ, р) 
(индекс / относится к номеру гармоники); К — матрица семи- 
инвариантов оценки 751; Ио. К, К, К) — семиинварианты 
оценок параметров сигнала основного тона; у — случайная вели- 
чина, оценивание которой может быть произведено с помощью из- 
вестных методов автоматического выделения озвученных участков 
речи [1] или посредством контроля ее Р,. 


Уравнение для семиинварианта К®) не приводится, так как 
не зависит от наблюдений и оценок других параметров. 

Первые два уравнения (7) моделируются устройством, блок- 
схема которого приведенав [7]. Отличие от рассматриваемого слу- 
чая заключается в способе формирования е; — необходимо учесть 
наличие оценки сигнала основного тона 0,5;, которую следует вы- 


честь из уклонения 2; — т = (2, В. Построение блок-схем 
устройств, моделирующих остальные уравнения, не вызывает за- 
труднений. 

Отметим, что уравнения, определяющие оценку 0;$;, описы- 
вают систему ФАПЧ, близкую к ранее применяемой для выделе- 
ния основного тона в [1]. 

Полученные результаты могут быть обобщены на случай неиз- 
вестных априори матриц Ё№з, Ев, Ёр в соответствии с квазиопти- 
мальной адаптивной нелинейной фильтрацией [10]. 

Для упрощения процедуры анализа приведенный способ сов- 
местного оценивания можно использовать на одном или несколь- 
ких этапах последовательного оценивания параметров сигнала [6], 
В этом случае размерность вектора 9; и матрицы К уменьшается, 
и алгоритм оказывается более простым. | 
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М = 


оо нме и 


В. Н. Сорокин, 
Элементы кодовой структуры речи 


Системы автоматического распознавания и понимания речи 
должны обеспечить человеку управление сложными автоматами, 
обеспечить доступ к автоматическим информационно-справочным 
системам, а в дальнейшем — помочь общению с искусственным 
интеллектом. Речевое общение человека с машиной эффективно 
только в том случае, когда система автоматического понимания 
речи достаточно надежна и не затрудняет процесс общения ошибка- 
ми и переспросами. Существующие системы не обеспечивают та- 
кого уровня эффективности прежде всего потому, что речь сфор- 
мировалась для общения между людьми, и для понимания ее важ- 
ны такие категории, как мимика, жесты и, главным образом, смысл 
сообщения, которые пока недоступны автоматическому анализу. 
Другая причина состоит в том, что структура речевого сигнала 
чрезвычайно сложна, и в практических разработках до сих пор 
Удавалось использовать лишь отдельные частные свойства речи. 
Только в последнее время начинают создаваться системы, учиты- 
вающие более широкий круг этих свойств: фонологические пра- 
вила произношения, грамматические ограничения на структуру 
фраз и т. д. 

Все более увеличивается потребность в синтезе сведений для 
создания модели структуры речевого сигнала, которая учитыва- 
ла бы основные свойства речи и могла бы использоваться при раз- 
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работке алгоритмов принятия решений. Такая модель должна 
опираться на сведения о процессах речеобразования и восприя- 
тия, а методы ее исследования должны быть аналогичны методам, 
использующимся в теории кодирования. Это вытекает из основ- 
ного назначения речи — передачи информации, причем в данном 
случае нас интересует лишь одна сторона этого сложного процес- 
са — передача фонетической информации. Способность речевого 
канала поддерживать связь в условиях высокого уровня помех 
и искажений и возможность членения речевого потока на дис- 
кретные элементы (слова, слоги, фонемы) позволяют отнести речь 
к классу корректирующих кодов и применить для ее исследова- 
ния методы, развитые в этой области. Вместе с тем имеются и не- 
которые отличия от обычной ситуации, рассматриваемой в теории 
кодирования. Эти отличия состоят в том, что пока не обнаружено 
никакой алгебраической структуры речевого кода и можно стро- 
ить лишь процесс декодирования речи, тогда как изменять ее ко- 
довые свойства нельзя. 

Схема кодирования речевой информации устанавливается ис- 
следованием процессов речеобразования. Эта схема такова: сло- 
во является наименьшей смысловой единицей речи. Словесный об- 
раз мысли перекодируется в последовательность нейромоторных 
команд, управляющих движениями артикуляторных органов: 
языка, губ, небной занавески, голосовых связок и нижней челюс- 
ти. Кинематические и динамические свойства артикуляционного 
аппарата приводят к взаимному влиянию артикуляционных про- 
цессов, в результате чего наименьшей единицей артикуляции ока- 
зывается слог, и команды управления формируются для слога 
в целом [1, 2]. 

Для достижения необходимой точности артикуляции система 
управления включает в себя несколько цепей обратной связи: 
тактильную, проприоцептивную и акустическую. 

Голосовой тракт представляет собой акустическую систему с 
распределенными параметрами. Поэтому каждое элементарное 
артикуляционное движение приводит к изменению многих акус- 
тических параметров речевого сигнала. Некоторый набор артику- 
ляционных движений и состояний, выполняемых одновременно 
или последовательно, характеризует фонему — наименьшую сло- 
горазличительную единицу речевого потока. Описание речевого 
сигнала в терминах фонем дает наиболее экономную запись сооб- 
щения. 

Процессы кодирования речевой информации характеризуются 
большим разнообразием закономерностей, осложняющихся инди- 
видуальными различиями произношения. Основные результаты в 
речевых исследованиях были получены путем выделения отдель- 
ных свойств и изучения их по возможности независимо от других. 
Вместе с продолжением этой важной работы необходимо и объеди- 
нение уже известных закономерностей на основе более общего под- 
хода к проблеме автоматического понимания речи. 
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Принцип «простоты». Результаты некоторых исследований 
свойств языка и восприятия показывают, что сложность процес- 
сов переработки информации играет важную роль в формировании 
структуры речи, например, закон Мандельброта [3], полученный 
из условия максимизации информации при ограниченной стоимо- 
сти сообщения, удовлетворительно описывает распределение веро- 
ятностей слов и фонем (рис. 1). Эксперименты по восприятию 
речевых и неречевых стимулов [1, 4, 5] 
показывают, что пропускная способ- 
ность мозга близка к 2 бит/символ, 
а оперативная память к 9 символам. 
При увеличении размерности прост- 
ранства признаков разрешающая спо- 
собность по каждому признаку па- 
дает до 2—3 градаций. Способность 
человека анализировать большие мас- 
сивы информации может объясняться 
перекодированием [6], в процессе ко- 
торого группе входных символов при- 


Л ШЗБГЖ 

а ан сваивается символ более высокого 

Рис. 1. Распределение вероят- УРОВНЯ, эти символы вновь группи- 
ностей фонем руются и т. д. до снижения объема 
‚ частота встречаемости зву- информации до приемлемого ор 

ков по [23]; Аналогичная идея многократной 
Е вероятность правиль- группировки символов привела к со- 
ного приема звуков по [10] зданию каскадных кодов, отличаю- 


щихся высокой исправляющей спо- 
собностью и простотой декодирования [7]. 

Указания на то, что в формировании структуры речи сложность 
процессов генерирования и анализа речевых сигналов играет столь 
же большую роль, как и надежность речевой связи, приводят к 
некоторым важным следствиям. Прежде всего это дает основание 
для анализа структуры речевого кода методами, развитыми в тео- 
рии кодирования, и позволяет применять в подходящих случаях 
приемы декодирования из этой теории. Отсюда также следует, 
что в целях экономии на каждом уровне речевого потока все имею- 
щиеся связи могут не использоваться, и что некоторые уровни 
могут обладать даже нулевой исправляющей способностью, лишь 
обнаруживая ошибки. 

Одно из практических следствий состоит в аналогии между ре- 
чевым кодом на уровне слов и кодами Шеннона — Фано и Хафме- 
на [8]. Распределение вероятностей, полученное максимизацией 
информации при ограниченной стоимости и предписывающее сло- 
ву тем меньшую вероятность появления, чем оно «дороже», мож- 
но рассматривать как обращение принципа, используемого в этих 
кодах, по которому наиболее вероятным словам присваиваются 
более короткие коды, а наименее вероятным — длинные. 

Как известно, коды Шеннона — Фано и Хафмена являются 
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неприводимыми (или префиксными) кодами, обладающими тем 
свойством, что никакое кодовое слово не является началом дру- 
гого кодового слова, и это свойство позволяет выделять кодовые 
слова из непрерывной последовательности символов без каких-ли- 
бо разделяющих сигналов. И хотя неприводимость не является 
обязательным признаком кодов, построенных по принципу «наи- 
более вероятные кодовые слова — наиболее короткие», можно 
предположить, что и реальный язык в известной степени подобен 
неприводимым кодам. 

Проверка этого предположения проводилась на материале сло- 
варя русских литературных слов, содержащего 2500 наиболее 
часто встречающихся слов [9] и записанного в фонетической транс- 
крипции. Слова попарно сравнивались друг с другом, причем 
совмещение слов происходило по их началам. Подсчет количества 
слов, которые служат началом других, показал, что всего таких 
слов нашлось 170 из 2500 (6,3%), и, таким образом, можно считать, 
что на уровне слов речь обладает свойством неприводимости. Об- 
щая вероятность появления слов-префиксов равна 0,278 за счет 
наиболее часто встречающихся одно- и двухбуквенных слов, без 
учета которых эта вероятность равна 0,097. Этот результат имеет 
очень важное практическое значение, поскольку все известные 
приемы сегментации слитного речевого потока на слова с исполь- 
зованием просодических характеристик (интонации, ударения), 
или опирающиеся на вероятности начальных и конечных звукосо- 
четаний, не приводят к решению этой проблемы. Подобные кос- 
венные оценки, безусловно, полезны, но они лишь дополняют ме- 
ханизм декодирования, основанный на префиксном свойстве слов. 
Важно также и то, что алгоритмы декодирования кодов Шеннона — 
Фано и Хафмена являются самокорректирующимися относительно 
границ между кодовыми словами, и это позволяет производить де- 
кодирование даже в том случае, когда начало слова по тем или 
иным причинам не было принято. 

Акустические и артикуляционные признаки. Реальность суще- 
ствования артикуляционных признаков как различительных приз- 
наков фонем удостоверяется в результате анализа процесса рече- 
образования и некоторых особенностей процесса восприятия. 

Некоторые артикуляционные признаки отчетливо проявляют- 
ся в процессе речеобразования — это включение голосового ис- 
точника, положение нёбной занавески, смычка и т. д. Эти при- 
знаки можно выявить и в процессе восприятия. Так, в матрицах пе- 
реходов фонем, полученных при субъективном восприятии слогов 
ГСГ в условиях маскировки шумом, видно, что реализуются дале- 
ко не все возможные переходы, а ошибки совершаются за счет 
маскировки одного-двух артикуляционных признаков [40] 
(табл. 1). 

Более того, известны эксперименты по кратковременному ви- 
зуальному запоминанию слогов, в которых матрицы переходов 
букв в известной степени аналогичны матрицам переходов фонем, 
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Таблица 1 
Матрица переходов фонем 


| 

б д р ж Е) В | л м н 
б |76,1 [143,3 | 6,5 0,4 0,9 0,7 
д | 13 71,2 |10,6 0.2 0,7 0,4 0,2 
г |14,8 | 19,4 | 53,3 т 2:5 0,2 
ж] 02 12,5 | 4 |45,5 | 24,5 7:2 0,8 
9 11,5 | 89| 4,2 | 449 | 10,4 2,3 0,1 0,3 
в '| 3.9 | 5604221 07| 4,5 |. 48,9 5,7 0,4 0,3 
л | 01| 0,3 | 03| 01| 0,5 0,6 96 ,4 05 0,6 
м | 01 0,1 0,1 2.4 65,7 29,2 
н| 0,1101 0,1 2,9 10,8 82,1 
и-| 04| 02102101 0,3 0,1 
т 0,1 0,1 0,1 
к 0,1 
ш 0,1 0,2 
с 0,1 [0,4 0,1 0,1 
ф 0,4 


так, как если бы происходило перекодирование зрительных обра- 
зов в слуховые [11]. 

Хотя все артикуляционные признаки связаны © мышечными 
сокращениями в голосовом аппарате, проявление их в изменении 
геометрии голосового тракта и влияние на акустические характе- 
ристики речевого сигнала отличаются большим разнообразием 
и требуют специфических приемов анализа каждого признака. 

Некоторые артикуляционные признаки по характеру сопровож- 
дающих их физических процессов тяготеют к двоичной градации 
(включено — выключено). Это признаки голосового источника, 
шумового источника, назальности, смычки, автоколебаний языка 
при артикуляции звука «Р». Каждому такому артикуляционному 
признаку соответствует ряд акустических признаков. Например, 
решение о наличии голосового возбуждения может быть принято 
и с помощью выделения импульсов основного тона, и анализом 
тонкой структуры спектра через кепстр, и анализом среднего на- 
клона спектра. Признак назальности характеризуется в акустиче- 
ском сигнале улучшением условий излучения на нижних частотах 
и появлением антирезонанса в области 700—1000 гц и т. д. 

Другие артикуляционные признаки описывают различие форм 
голосового тракта, причем согласные звуки характеризуются ло- 
кальным, концентрированным на небольшом участке изменением 
конфигурации тракта (так называемым «местом артикуляции»), 
тогда как гласные отличаются более общим характером изменений. 
Кроме того, имеются артикуляционные признаки, характеризую- 
щие движение артикуляторных органов. Все эти признаки имеют 
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при маекировке белым шумом 


Т | к 


| - 


и ш х Ч ц 
0,8 | 43 
20| 0,7 
5,9 | 4,2 
13,7| 1,6 
0,1 16,8 | 1.5 
0,2 16,7| 21 
0,51 01 
0,4 1 1,3 
0,2 1,8 | 1,8 
56,3 |142 | 63| 07| 5,7 [11,2| 26| 0,4| 14| 0,2 
11,9 [60,5 [62| 1 | 10,7| 67| 07| 02| 17| 02 
11,4 [19,7 |464 | 43| 94| 79| 22| 01| 14| 05 
22 |124 | 2,3 [21,1 | 30,6| 7 лр Юя [2 0,5 
46 |19,7 | 2,8 | 3,4 [56,7| 8,2 | 1,5 | 04| 14| 06| 0,4 
16,4 [12,8 | 7,9| 1,6 | 45.2 |376 | 6,5 | 05| 44| 03 


< 


более сложную связь с акустическими характеристиками речево- 
го сигнала и проявляются главным образом в положении и траек- 
ториях формант. 

В [12] было показано, что в зависимости от того, приходится 
ли наибольшее сужение в акустической трубе на узел или пуч- 
ность некоторой собственной функции этой трубы, происходит по- 
нижение или повышение соответствующей собственной частоты. 
Это свойство голосового тракта лежит в основе возможности при- 
нятия решений о качестве гласного на плоскости частот первых 
двух формант РЁ, — №5. Это же свойство используется и для опре- 
деления места артикуляции по переходам частот формант, однако 
в этом случае принятие решений, как известно, затрудняется ко- 
артикуляцией — влиянием окружающих гласных звуков, на фо- 
не которых происходит артикуляция согласного звука. 

Анализ явления коартикуляции позволяет построить процеду- 
ры определения места артикуляции как по переходам частот фор- 
мант [13—15], так и по динамике их амплитуд [16]. Наряду с акус- 
тическим анализом признака места артикуляции в последнее время 
большое внимание привлекает «анализ через синтез», позволяю- 
щий восстановить форму голосового тракта. Этот метод характе- 
ризуется большой помехоустойчивостью и дает возможность при- 
нимать решения о месте артикуляции по координате наибольшего 
сужения, но отличается большой трудоемкостью. 

Таким образом, артикуляционные признаки по сложности ана- 
лиза разбиваются на две группы: для одной группы достаточно 
использовать непосредственно акустические характеристики ре- 
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чевого сигнала, а для другой имеется необходимость в «анализе 
через синтез» с целью восстановления формы голосового тракта. 
Соответственно этим группам признаков существуют и две теории 
восприятия — акустическая и моторная. Согласно акустической 
теории, качество фонем определяется исключительно их акусти- 
ческими различительными признаками. Моторная теория предпо- 
лагает, что в процессе анализа речевого сигнала определяются па- 
‘раметры артикуляции, которые и служат первичным описанием о 
фонетического состава речи. Обе теории подкрепляются экспери- 
ментальными данными, но ни одна из них не смогла занять доми- 
нирующего положения, что, по-видимому, отражает объективное 
различие в свойствах артикуляционных признаков. 

Как видно из последующего, при хороших условиях речевой 
связи достаточно лишь акустического анализа, а при повышении 
уровня помех может появиться необходимость и в артикуляцион- 
ном анализе. Физиологическое обоснование возможности артику- 
ляционного анализа состоит в существовании акустической цепи 
обратной связи, которая решает задачу коррекции нейромоторных 
команд управления артикуляционными движениями по акустиче- 
ским характеристикам текущего речевого сигнала [2]. 

Рассмотрим теперь возможную структуру процессов принятия 
решений относительно артикуляционных признаков, не касаясь 
конкретных алгоритмов их выделения непосредственно из акус- 
тического потока. Будем считать, что артикуляционные признаки, 
образующие код фонем, характеризуются постоянством значения, 
но интервалы времени, на которых они постоянны, для различных 
признаков различны и могут быть сдвинуты относительно друг 
друга. В этом случае препарирование речевого сигнала заключа- 
ется в разделении его на последовательность неперекрывающихся 
сегментов, содержащих только по одному значению любого призна- 
ка. Психофизические исследования показывают, что на этом уров- 
не. применимы методы статистической теории решений [17], по- 
этому после необходимой нормализации все вариации акустиче- 
ских признаков можно считать случайными, в том числе и ту из- 
менчивость, которая порождается индивидуальными особенностя- 
ми произношения и взаимным влиянием звуков. Такой подход 
оправдывается стремлением к максимальной простоте решающих 
правил и возможностью коррекции ошибок на фонемном и сло- 
весном уровнях. 

Известно, что одному и тому же артикуляционному признаку 
соответствует ряд акустических явлений, и в результате этого воз- 
можны разнообразные алгоритмы выделения артикуляционных 
признаков. Если рассмотривать акустический процесс речеобразо- 
вания как многоканальную передачу информации о состоянии ар- 
тикуляционного аппарата, то решение' о наличии или отсутствии 
того или иного артикуляционного признака можно принимать ме- 
тодом накопления по множеству соответствующих ему акустиче- 
ских признаков 


е = У (1) 


К—1 
где 2; — величина, пропорциональная некоторому артикуляцион- 
ному признаку; 5»; — измеренные значения акустических призна- 
ков, нормированные таким образом, чтобы их можно было сумми- 
ровать. 

Такой способ обнаружения сигнала, как известно, может дать 
выигрыш в п раз в отношении сигнал/помеха, если значения поме- 
хи независимы. При выделении артикуляционных признаков этот 
выигрыш меньше п не только за счет коррелированности помех, 
но и за счет того, что на некоторые акустические признаки весьма 
сильно влияют и другие артикуляционные признаки, так что они 
характеризуют данный артикуляционный признак лишь с некото- 
рой степенью принадлежности. Это явление учитывается с помощью 
весов &,;, пропорциональных информативности акустического 
признака относительно і-го артикуляционного признака, и обра- 
зования взвешенной суммы вместо (1): 


* 4 
Ср е 7, ЫРШ" 


К=1 
Количество артикуляционных признаков близко к десяти. 
В их число входят признаки звонкости, шумности, назальности, 
аналогичный признаку назальности признак разветвления воз- 
душной струи при артикуляции звука «л», признак автоколебаний 
при артикуляции звука «р», признак степени раскрытия ротовой 
полости (иногда называемый признаком различения гласных от 
согласных) и признак места артикуляции. Согласно свойствам 
восприятия, каждый признак должен иметь не более двух-трех 
градаций, и это выполняется для всех признаков, кроме признака 
места артикуляции. По этому признаку можно выделить пять мест 
активной артикуляции, описывающих следующие группы фонем: 
губные, переднеязычные зубные, переднеязычные нёбные, средне- 
язычные и заднеязычные. Кинематика артикуляционного аппара- 
та такова, что почти все эти движения могут выполняться незави- 
симо, так что фактически имеется пять двоичных признаков места 
артикуляции вместо одного с пятью градациями. Поэтому решаю- 
шие правила для артикуляционных признаков могут быть двух- 
альтернативными. Процесс принятия решений относительно не- 
которого сигнала обычно состоит в сравнении отношения апосте- 
риорных вероятностей (отношения правдоподобия) Л = 
= р (Н, | ®;)/р (Но | 0;) с некоторым порогом №, где Н; и Н,—со- 
ответственно гипотезы о наличии или отсутствии сигнала. 
Выбор порога А, зависит от сведений о рассматриваемой задаче, 
в частности от стоимости ошибок и априорной вероятности появ- 
ления признака. Если цены и априорные вероятности известны, 
то оптимальным является критерий минимального риска (крите- 
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рий Байеса); если известны только цены, применяют минимакс- 
ный критерий, гарантирующий, что риск не превзойдет некото- 
рого уровня. | 

Стоимости ошибок на артикуляционно-фонемном уровне в 
настоящее время неизвестны, а априорные вероятности, установ- 
ленные по средней частоте встречаемости, имеют значительную 
дисперсию, определяемую частотами слов в данном словаре и час- 
тотами появления фонем в некоторой позиции слова. Критерий 
Неймана — Пирсона не нуждается ни в ценах, ни в априорных 
вероятностях; он состоит в выборе такого Лу, который бы миними- 
зировал ошибки одного типа, например вероятность пропуска 
сигнала, равную 


оо 
А) 


рі \ р (5) ао; 
в 
при заданной вероятности ошибки другого типа, например веро- 
ятности ложной тревоги 


№ 
ра = \ р(о) ао, 
0 


где р (2) — вероятностное разделение данного признака. 


Но в задаче распознавания артикуляционных признаков нет 
никаких оснований для предпочтения ошибок одного рода ошиб- 
кам другого рода, и поэтому критерий Неймана — Пирсона сле- 
довало бы применить дважды — для вычисления порога №: при 
условии ру = & и для вычисления порога Ау при условии р, = 
= ғ. В общем случае Лу = А, и между ними остается зона неоп- 
ределенности, при попадании в которую относительно измеряемой 
реализации не принимается никакого решения. 

Артикуляционный признак сохраняет свое значение на неко- 
тором интервале времени т, поэтому имеется возможность прини- 
мать решения не по однократному отсчету, а по целому ряду та- 
ких отсчетов. Простейший и наиболее часто применяемый способ 
вычисления функции правдоподобия состоит в усреднении 9; (#) 
по времени; он адекватен гауссовской модели помех. 

Распределение вероятностей р (5), а с ним и пороги № и Л, 
зависят от уровня шумов. Поэтому в нестационарных условиях 
необходимо каким-либо образом производить оценку этого уров- 
ня. Относительно сигналов, попавших в зону неопределенности 
между порогами Ау и Ло, может быть либо принято решение о 
стирании, либо приписано значение правдоподобия [7]: 


1, > А»; 

2 ДА == А — № 
(0). == АУ — ЛА<о$ АА; Ш ЕЕ 79 

е ^ 2 


В дальнейших процессах принятия решений потребуются ёве- 
дения о надежности того или иного артикуляционного признака. 
Их можно получить из психоакустических экспериментов с раз- 
личными видами маскировки. В табл. 2 показана надежность вы- 
деления признаков звонкости, назальности, шумности и места 
артикуляции по результатам аудиторных испытаний при маски- 
ровке белым шумом для английского [18] и русского языков [10], 
при маскировке импульсной помехой с частотой следования около 


а Е 


Рис. 2. Субъективная вероят- 
ность правильного приема 
артикуляционных признаков 


1 — голосовой источник; 2 — на- 
зальность; 3 — переднеязычный; 
4 — шумовой источник; 5 — губ- 
ной; 6 — заднеязычный; 7 — пе- 
реднеязычный — небный 
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120 гц, при полосовом ограничении 200 — 2500 гц и 200—1200 тц 
с отношением сигнал/шум --12 дб [18] и при клиппировании в по- 
лосе 7 кгц [15]. На рис. 2 показана зависимость надежности субъ- 
ективного выделения артикуляционных признаков от отношения 
сигнал/шум. Из этого рисунка видно, что признаки звонкости и 
назальности наиболее надежны и мало зависят от уровня помех. 
В других условиях восприятия, где большую роль играет ревер- 
берация, наблюдается заметный процент переходов звонких и 
глухих звуков друг в друга [19]. 


Таблица 2 


Субъективная вероятность правильного приема артикуляционных 
признаков: голосового источника (ГИ), назальностй (Н), шумового 
источника (ШИ), места артикуляции (МА) 


Маскировка и искажение | ?ги РН | РШИ РМА 
Белый шум, английский язык 0,97 0,946 0,815 0,707 
Белый шум, русский язык 0,987 0,922 0,667 0,680 
Импульсная помеха, русский 0,859 0,76 0,77 0,674 
язык 
Полосовое ограничение 200— 0,981 1,00 0,893 | 0,814 
2500 гц, английский язык 
Полосовое ограничение 200— 0,963 0,996 | 0,864 | 0,714 


1200 гц, английский язык 
Клиппирование, русский язык| 0,774--0,964 0,785 0,901 0,699 
Среднее 0,928 0.905 ! 0,823 | 0,716 
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Фонемы. Определив фонему как совокупность артикуляцион- 
ных признаков, можно подсчитать исправляющую способность 
речевого кода на уровне фонем. Если число несовпадающих арти- 
куляционных признаков назвать кодовым расстоянием 4, то усло- 
вие обнаружения ошибок кратности (04 есть е5 а — 1, а усло- 
вие исправления ошибок кратности О, есть [20]: 20. < а — 1. 

Составляя таблицу кодовых расстояний фонем и вычисляя по 
ней спектр взаимных расстояний (рис. 3), можно убедиться, что 


Рис. 3. Спектр кодовых рас- 
стояний фонем 


полное описание; 
— — — — — без признака мес- 
та артикуляции 


на фонемном уровне потенциально возможно обнаружение около 
15% и исправление около 37,2% одиночных ошибок, а число об- 
наруживаемых двойных ошибок меньше 10%. Стертые артикуля- 
ционные признаки, отношение правдоподобия которых попало 
в зону неопределенности, можно восстановить на уровне фонем, 
причем число восстанавливаемых признаков (©, < 0 — 1 в данном 
случае равно 75%. Это указывает, что исправляющую способ- 
ность фонемного кода выгоднее использовать для восстановления 
стертых признаков, а пороги в решающих правилах для артикуля- 
ционных признаков установить таким образом, чтобы увеличить 
число стираний и за этот счет повысить достоверность остальных 
решений. Как правило, стертый признак легче восстановить, чем 
исправить ошибку, потому что место стертого признака точно оп- 
ределено. Признаки места артикуляции обладают наименьшей по- 
мехоустойчивостью и наибольшей трудоемкостью. 

На рис. 3 показано, как меняется спектр кодовых расстояний 
фонем, если признаки места артикуляции станут неразличимыми. 
При этом 12,4% фонем будут иметь одинаковые коды, обнаружение 
одиночных ошибок упадет до 47,7%, а исправление одиночных оши- 
бок до 10,5%. Как видно, соотношение между числом восстанав- 
ливаемых стертых признаков и числом исправляемых ошибок 
здесь также в пользу первого. Стоимость генерирования каждого 
артикуляционного признака о, вычисленная из закона Мандель- 
брота, оказывается различной в зависимости от противопоставляе- 
мых звуков. 

Вероятность правильного приема артикуляционных призна- 
ков в экспериментах по субъективному восприятию при маскиров- 
ке также заметно различается. Это означает, что характеристики 
артикуляционных признаков при их генерировании и восприятии 
оказываются зависящими друг от друга. Очевидно, эта зависимость 
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частично является следствием уже обсуждавшегося свойства ре- 
чевого сигнала — влияния различных артикуляционных призна- 
ков на один и тот же акустический признак. Декодирование фо- 
нем по зависимым признакам сложнее декодирования по незави- 
симым признакам, поэтому нужно оценить влияние зависимости 
признаков на надежность декодирования слов. С этой целью по- 
строим следующую математическую модель речевого кода на уровне 
фонем: при формировании слов последовательность фонем выби- 
рается случайной, но зависящей от т предыдущих фонем, и перехо- 
ды фонем под действием помех независимы. В такой модели мож- 
но оценить верхнюю и нижнюю границы надежности декодирова- 
ния слов при различных способах декодирования фонем с учетом 
и без учета зависимости артикуляционных признаков !. 

Используя теорему о кодировании, можно определить потен- 
циальную вероятность ошибки р (ғ) при различении слов, обла- 
дающих кодовыми связями на т фонем: 


р (г) = ехр (—Е (А)т), (2) 
где А — количество информации на фонему; Е (В) — функция 
надежности, вычисляемая по формуле Е (А) = тіп [6 (2) — 2) К]. 

0<х< о 


Здесь С (х) — функция Галлагера [21], которая определяется 
соотношением 
1+х 


І І 
6 (0) = – 2) (У рр"), 


ј=1 К=1 


где / — число фонем; р, — вероятность появления Ё-й фонемы; 
| рһ5 | — матрица переходов фонем. 

Графический способ вычисления Ё (В) состоит в нахождении 
точки пересечения оси ординат, касательной к функции (б (2) — 
— 1А), проведенной из точки, в которой А = 46/12. 

Матрицы переходов фонем |рһ; | и матрицы переходов арти- 
куляционных признаков были взяты из экспериментов по восприя- 
тию бессмысленных слогов типа гласный — согласный — глас- 
ный при разных отношениях сигнал/шум [10]. Матрицы переходов 
гласных звуков принимались единичными. Для оценки вероятно- 
сти ошибки по (2) необходимо знать скорость передачи информации 
в речевом коде В». и глубину кодовых связей. Скорость информа- 
ции В» принималась лежащей между 0,97 и 0,58 (в натах) [22], 
а глубина кодовых связей — равной длине слова п (при п < 7). 
Поэтому вместо (2) для расчетов использовалось 


р(е) = 2] ргехр(— Е(В)*), 


=—_—_ 


1 Это исследование было проведено совместно с К. Ш. Зигангировым. 
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Где р. — вероятность появления слова длиной т, вычислённая йд 
словарю [9] (суммарная вероятность появления слов длиной п 
< 7 в словаре близка к 0,74). 


На рис. 4 показаны нижние границы функции надежности, 
вычисленные непосредственно по фонемам (как бы с полным уче- 
том зависимости артикуляционных признаков) и по независимым 
артикуляционным признакам. По этим же графикам можно опре- 
делить и верхнюю границу ошибок, называющуюся границей су- 


ществования: Ё (В) = іш [С (2) — хД]. Әта граница гарантирует 
0<х%1 


существование способа декодирования, обеспечивающего данную 
надежность. 

В табл. З показаны верхние и нижние оценки вероятности оши- 
бок на словесном уровне для всех длин слов (1 <п< Ти без 
одно- и двухфонемных слов (3 < п $ 7). Как видно, нижняя гра- 
ница ошибок при декодировании по фонемам столь мала, что вы- 
ходит за пределы точности исходных экспериментальных данных. 
На рис. 5 приведены верхние границы ошибок в сравнении с 
субъективными вероятностями ошибки слов, полученными для 
тех же отношений сигнал/шум при аудиторных испытаниях [23]. 
Из сравнения следует, что субъективные показатели ошибок на- 
ходятся ближе к верхней границе ошибок, рассчитанных по неза- 
висимым артикуляционным признакам, причем разница между 
разными способами декодирования фонем и субъективными вероят- 
ностями падает по мере снижения условия шума. Әти результаты 
можно трактовать таким образом, что при декодировании фонем 
может быть отдано предпочтение более простому анализу по неза- 
висимым артикуляционным признакам, в особенности при умерен- 
ном уровне шума. 

Учитывая малую исправляющую способность фонем и замет- 
ное различие в их помехоустойчивости (рис. 6), можно предполо- 
жить, что основная коррекция ошибок в речевом коде происходит 
на вышележащих уровнях, и что чрезмерное усложнение анализа 
фонем неэффективно и нецелесообразно. 

Слоги. Артикуляционные признаки, характеризующие фоне- 
му, во многих случаях не появляются одновременно, а распределены 
во времени. Например, временная структура согласного взрыв- 
ного звука в окружении гласных такова: движение артикулятор- 
ного органа (формантный переход) — смычка (звонкая или глу- 
хая) — раскрытие смычки, имеющее одну или две акустические 
фазы: взрыв (может отсутствовать) и формантный переход. Поэто- 
му анализ таких звуков должен производиться на интервале слога. 
Таким образом, слог оказывается не только единицей артику- 
ляторной программы, но и единицей анализа. Коартикуляция и 
связанные с ней трудности сегментации речевого потока на фонемы 
привели в практике распознавания к использованию специфи- 
ческих единиц, охватывающих часть слога и называемых фрагмен- 
тами или транземами. Недостатком этих единиц, так же как и сло- 
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Таблица 3 
Границы надежности декодирования слов 297 и 3<097 


Верхняя 


Нижняя 
ум в ав | 0 + 8 | + 12 — 8 | 0 + 8 
п1 
В 0,97 0,034 0,029 0,025 0,023 2 ВЕ 10 
Фонема 0,58 0,021 9,049 0,016 0,014 = = аы 
0,97 0,443 0,406 0,066 0,054 0,085 0,072 0,034 
Бревак 0,58 0,063 0,054 0,039 0,029 0,003 0,002 0,004 
3<п<1 
Фонема вЫ 3,4.10-3 2,3.10-3 1.800 1,2.10-3 — — — 
0,58 | 1,1.40-з | 7,4.40-= | 5,2.10-* | 3,8.10- = = Ме 
Признак 0,97 | 4.4.10-? | 3,6.10-° | 4,5.10-2 | 8,4.40-3 9,5.10-2 | 4,8.10-2 | 3,4.40-3 
0,58 | 4,3.40-2 | 9,9.40-— | .4,7.10-3 | 2,5.40-3 5,3.10-6 | 4,3.10-6 | 3,4.40-6 


асат Рие. 4. Функция Галлагера 
и нижние границы функции 
надежности 


Л 
-900 0+8 +12 


Т— артикуляционные признаки; 
ІІ — фонемы 


-8 0 +8 580. бо 4 8 


Рие. 5. Вероятность неправильного распознавания слов 


1 — субъективная, по [23]; 2, 3 — при декодировании фонем по независимым артикуля- 
ционным признакам; 4, 5 — при декодировании слов непосредственно по фонемам. 
2, 4 — Но == 0,97; 8, 5 — Во = 0,58 


Рис. 6. Вероятность правильного приема некоторых фонем при маскировке 
белым шумом 


гов, является то, что число их значительно (на один-два поряд- 
ка) превышает число фонем, и описание речевого потока в их 
терминах весьма неэкономно. 

Установлено, однако, что относительно малым числом слогов 
можно описать весьма большую часть речевых сообщений. Напри- 
мер, 100 фрагментов типа СГ охватывают 72% текста, содержаще- 
го более 1000 слов [24], и, следовательно, некоторые слоги могут 
быть включены в кодовую структуру речи. 

Исправляющая способность слогов не исследована, но извест- 
ны результаты аудиторных испытаний, связывающие фонемную 
слоговую и словесную разборчивость [23]. Из рис. 7 видно, что 
слоговая разборчивость всегда хуже фонемной, тогда как сло- 
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весная — всегда лучше слоговой. Даже если исправляющая спо- 
собность слогов окажется ничтожно малой, их участок в кодовой 
структуре будет оправдан возможностью обнаружения физиче- 
ски неосуществимых последовательностей состояний. В каскадных 
кодах также иногда прибегают к введению каскада, обладающего 
лишь способностью к обнаружению ошибок. 


УХА 

100 

60 
Рис. 7. Зависимость от фо- 
немной разборчивости слого- 
вой (1), словесной (2), фразо- 20 
вой (3) и словесной разборчи- 

- (4 и 

вости от слоговой (4) 20 50 700 


Слова. Фонетическая структура слов обладает значительно 
большей исправляющей способностью, чем фонемы. Эта исправляю- 
щая способность зависит от длины слов. Очевидно, что исправляю- 
щая способность однофонемных слов (предлогов и союзов) равна 
просто исправляющей способности фонем. Но средняя длины слов 
в русском языке близка к 6, и это позволяет обнаруживать и ис- 
правлять значительную долю ошибок даже в тех случаях, когда 
для описания фонем используются не все артикуляционные приз- 
наки, и некоторые фонемы становятся неразличимыми. Оценка 
спектров кодовых расстояний слов при различных способах вычер- 
кивания артикуляционных признаков (объединения фонем в груп- 
пы) производилась на словаре [9], записанном в фонетической тран- 
скрипции. В этом словаре кодовое расстояние между каждой 
парой слов определялось как минимальное расстояние по Хем- 
мингу при всевозможных относительных сдвигах этих слов. 

На рис. 8 условно в виде кривых показаны спектры кодовых 
расстояний для полных кодов фонем, а также для различных ва- 
риантов усеченных кодов. Один эксперимент был проведен при 
различении лишь трех мест артикуляции вместо пяти и четырех 
типов гласных (а, э; и, е, ы; о; у); исключены были также призна- 
ки автоколебательности и бокового прохода. В этом случае нераз- 
личимы, например, следующие звуки: (6, в), (д, р, л), (ж, з, и), 
(с, ш) ит. д. Другой эксперимент проводили при тех же условиях 
относительно согласных, но все гласные считались неразличимыми. 
Наконец, был полностью исключен признак места артикуляции 
(при сохранении различения согласных от гласных, также призна- 
ков звонкости, назальности и шумности). 

На рис. 8 видно, что при использовании полных кодов фонем 
верхняя грань корректирующей способности слов составляет 
99,9% обнаружения и 99,3% исправления одиночных ошибок, 
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96,3 % обнаружения и 88,8 % исправления двойных ошибок, 74,9% 
обнаружения и 57 % исправления тройных ошибок и т. д., тогда 
как исключение признаков места артикуляции, автоколебатель- 
ности и боковых проходов и полная неразличимость гласных пони- 
жают эти величины соответственно до 99 % обнаружения и 96,4% 
исправления одиночных ошибок, 90,1 % обнаружения и 80,4% ис- 
правления двойных ошибок, 66,7% обнаружения и 50,5% исправ- 
ления тройных ошибок и т. д. 


ГА 
20 

в; = 
15 | 

20 
10 

10 
5 

| а | 
4 8 12 16 а 1000 2000 


Рис. 8. Спектр кодовых расстояний слов 


1 — полные коды фонем; 2 — три места артикуляции, четыре типа гласных, слияние 
признака автоколебательности и признака разветвлений переднеязычным местом арти- 
куляции; 3 — то же, что и 2; но все гласные не различимы; 4 — сохранены признаки 
звонкости, назальности, шумности, гласный — согласный 


Рис. 9. Доля слов с одинаковыми кодами в зависимости от объема словаря 
1 — соответствует 2; 2 — соответствует 3; 3 — соответствует 4 на рис. 8 


Вместе с тем для усеченных кодов фонем некоторые слова начи- 
нают совпадать. Число слов, обладающих одинаковым кодом, в каж- 
дой группе невелико, а общее количество таких слов достигает 2,2% 
для первого способа усечения кодов, 5,6 % —для второго способа и 
17,9% — для третьего. На рис. 9 показана зависимость числа оди- 
наковых слов от объема словаря. 

_ Из этих расчетов следует, что при отсутствии помех подавля- · 
ющее большинство слов может быть однозначно классифицирова- 
но с использованием лишь тех артикуляционных признаков (звон- 
кость, шумность, назальность, признак «гласный — согласный»), 
которые выделяются непосредственно из акустического сигнала с 
помощью простых алгоритмов. По мере роста интенсивности по- 
мех роль признаков места артикуляции должна возрастать из-за 
необходимости обеспечения большего кодового расстояния между 
словами. Если процесс анализа речи организовать таким образом, 
что сначала с помощью акустического анализа выбирается группа 
слов, имеющих одинаковый код со словом на входе распознающе- 
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го устройства, а затем производится окончательная идентифика- 
ция этого слова по полным кодам фонем, то среднее количество опе- 
раций на декодированное слово уменьшается, и этот выигрыш тем 
больше, чем лучше условия связи. 

При определенном уровне шумов потребуется использовать 
всю доступную избыточность, для чего необходимо включить меха- 
низм анализа через синтез. В этом случае акустические признаки 
послужат для направления поиска. Очевидно, что для выбора спо- 
соба анализа нужно уметь измерять текущий уровень шумов. 

Заключение. При построении модели речевого сигнала необходи- 
мо принимать во внимание сведения о роли фактора сложности в про- 
цессах речеобразования и восприятия, связанную с этим иерархиче- 
скую структуру речи и возможность обнаружения и исправления 
ошибок. В результате этого для декодирования фонетической струк- 
туры (в противоположность оценке эмоционального и физического 
состояния человека по его речи) необязателен предельно точный акус- 
тический анализ речевого сигнала, который увеличивает разброс 
оцениваемых параметров и усложняет процесс декодирования. 
Вместе с тем должна быть сохранена необходимая точность для 
выделения акустических признаков, адекватных артикуляционным 
процессам речеобразования. 

В число кодовых уровней речевого сигнала входят акустичес- 
кие и артикуляционные признаки, фонемы, слоги, слова и фразы. 
Каждый из этих уровней обладает в том или ином объеме способ- 
ностью обнаруживать и исправлять ошибки, и это позволяет дос- 
тичь необходимую надежность декодирования при использовании 
сравнительно простых алгоритмов. Сложность этих алгоритмов, 
число и вид используемых уровней зависят от условий в канале 
связи — в одних случаях можно ограничиться небольшим числом 
простых акустических признаков, в других случаях потребуется 
анализ через синтез, а при особенно тяжелых условиях необходи- 
мо использовать всю избыточность, заключенную в речевом сигна- 
ле, вплоть до семантического анализа. 

К анализу речевого кода в ряде случаев применимы методы 
теории кодирования, что позволяет обнаружить свойства, важные 
с практической точки зрения, такие, как, например, свойство не- 
приводимости, позволяющее выделять большинство слов из непре- 
рывного потока речи. Из числа известных методов декодирования 
к речевому сигналу подходит только последовательное декодиро- 
вание, причем специфика речи такова, что в процессе декодирова- 
ния целесообразен параллельный анализ уровней речевого кода. 
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Р. К. Потапова 
О типологических особенностях слога 


Одним из основных вопросов научного анализа является вопрос 
выбора объекта исследования и дальнейшей принципиальной 
стратификации өго признаков. В связи с этим не менее важным 
представляется вопрос о том, какие объекты научного анализа 
следует считать элементарными структурами в рамках проводи- 
мого исследования. 

Согласно теории познания, элементарная структура может 
быть рассмотрена как некоторая целостность, к уровню которой 
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‚должно быть сведено все многообразие данных исследования. 
Элементарная структура как объект исследования выступает в 
данном случае как своего рода атом, который оказывается в 
фокусе всего исследовательского построения. В этом контексте 
определенную значимость приобретают вопросы о строении и функ- 
ционировании самой элементарной структуры. Всякая элементарная 
структура, рассматриваемая как целостность, должна обладать 
всеми признаками, присущими целостности как философскому 
понятию [2]. Понятие же целостности в этом аспекте весьма слож- 
но по своему содержанию и далеко не исчерпывается чисто сум- 
мативным пониманием, при котором целостность сводится к 
сумме ее частей, что было характерным для понимания целостнос- 
ти с позиций механистического материализма [3]. 

Следует отметить, что применительно к исследованию рече- 
вого потока выбор основной элементарной структуры постоянно 
являлся важнейшим вопросом, находящимся в прямой зависимос- 
ти от конечной цели исследования. Для лингвистических работ 
прикладного характера наметились в основном два пути, обус- 
ловленные природой объекта, выбранного в качестве опорной 
элементарной структуры. Сторонники одного подхода стоят на 
позициях вычленения в качестве опорной элементарной структуры 
звука (фонемы) и его субзвуковых (субфонемных) составляющих, 
сторонники другого подхода ориентируются на слог. Таким обра- 
зом, на современном этапе развития проблемы автоматического 
распознавания речи можно зафиксировать наличие двух способов 
выбора опорной элементарной структуры как некоторой целост- 
ности в целях ее первичного распознавания. 

Решение вопроса было бы не столь сложным, если бы каждую 
из названных элементарных структур (звук, слог) можно было бы 
рассматривать чисто суммативно. Однако, учитывая специфику 
слитной речи, следует на первое место при описании признаков 
целостного объекта поставить свойство интегративности. Подоб- 
ный подход ведет к тому, что целостность будет характеризоваться 
новыми качествами и свойствами, не присущими ее отдельным 
составляющим, возникающими в результате взаимодействия этих 
составляющих в определенной системе связей. При этом одним 
из ведущих принципов следует считать принцип субаддитивности, 
согласно которому целое может быть меньше суммы его частей. 
Применительно к такой элементарной целостности, как слог, это 
означает, что, описывая признаки слога на артикуляторном, акус- 
тическом и перцептивном уровнях, можно предполагать наличие 
такого образования, которое несводимо к сумме его составляющих. 
При этом на слог как на интегративную целостность накладываются 
новые свойства, обусловленные не только природой его звуковых 
составляющих, но и условиями конкретной реализации, что в 
свою очередь может привести к образованию новых типов слога. 
Следует подчеркнуть, что в процессе научного познания и воспро- 
изведения сложного объекта, каким является речевое высказыва- 
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ние, членение на составляющие может быть весьма разноплановым: 
параметрическим, сегментным, фонематическим, силлабическим, 
морфологическим, лексическим, синтаксическим, семантическим. 
На сложный объект не может быть наложено только одно теорети- 
ческое представление целостности. Анализируя сложный объект, ис- 
следователь каждый раз имеет дело с различными «срезами» объекта. 

В литературе представлена точка зрения, согласно которой 
достаточно, например, располагать информацией о фонемной 
принадлежности составляющих слога, и вопрос об алфавите и 
типах слоговых структур вполне решен [9]. В принципе такой 
подход возможен, но тогда основной упор делается на фонотакти- 
ку языка без дифференциации правил порождения объекта на 
фонетические и фонологические. При подобном подходе не толь- 
ко смешиваются понятия двух разных аспектов — речевого и 
языкового, но также и не учитывается интегративная сущность 
опорного вычленяемого объекта. Имеется и иной подход, при 
котором основополагающим при сегментации на слоги является 
параметрическая информация, как, например, информация об 
изменении уровня интенсивности сигнала [1]. Однако в данном 
случае основная ориентация на увеличение уровня интенсивнос- 
ти на участке, соответствующем гласному, не всегда правомерна. 
Известно, что реализация уровня интенсивности в слоге зависит 
от целого ряда переменных, таких, например, как функциониро- 
вание долготы и краткости слогоносителя, изменение типа при- 
мыкания конечного согласного, временная организация слога, 
особый статус сонантов в ряде германских языков и т.д. В связи с 
последним фактором следует указать на то, что, например, в англий- 
ском языке сонант может брать на себя в определенных случаях 
роль слогоносителя. Кроме того наблюдается, что в немецком и 
английском языках в закрытом слоге СГС с кратким гласным при 
сильном типе примыкания последующего сонанта фиксируется 
сплошь и рядом смещение максимума интенсивности от ядра — 
слогоносителя к конечному сонанту. | 

Таким образом, если для языков, где открытый тип слога 
является доминирующим, правомерна опора на элементарную 
структуру СГ или фрагмента, меньшего СГ, но охватывающего 
наиболее информативный участок слога [4, 5], то для германских 
языков выбор элементарной структуры на уровне слога далеко 
не универсален в рамках структуры СГ. 

В качестве аргументации приведем некоторые данные, полу- 
ченные нами в ходе дальнейшей разработки проблемы временной 
организации структуры речевого высказывания. Основное допу- 
щение на данном этапе исследования было сформулировано сле- 
дующим образом: всякое речевое высказывание характеризуется 
определенным образом заданной и реализуемой в процессе рече- 
производства временной программой. При этом все сегменты 
высказывания, являясь частью единого целого, подчинены опре- 
деленной временной программе. 
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Исследования последних лет показали, что временная орга- 
низация речи является сложным и многоплановым феноменом. 
Было найдено, что для различных языков характерен определен- 
ный тип временной организации слога. Известны попытки до- 
казать, что при произнесении слова последнее программируется 
с точки зрения временной организации как единое целое, причем 
значимая зависимость существует между всеми сегментами, ко- 
торые образуют слово. 

Основная задача исследования заключалось в поиске элементов 
высказывания, между которыми существовала бы определенная 
значимая временная зависимость. Исследование проводилось на 
материале двух языков: немецкого и английского. Эксперимен- 
тальный набор включал фразы, составленные с учетом целого 
ряда требований контекстуального характера (п = б). 

Экспериментальные фразы были начитаны на магнитофон 
МэЭ3-62 в студийных условиях носителями языка: немцами (/№, = 
= 15), англичанами (№, = 10). Значения длительности (в мс) 
для каждого анализируемого сегмента высказывания (звука, 
звукосочетания, слова, фразы) просчитывались по интонограммам, 
полученным с помощью интонографа И-67. Для выявления кор- 
реляции по длительности между анализируемыми сегментами 


высказывания в каждом конкретном случае определялся коэф- 
фициент корреляции р: 


п, 
2 х,у; — 29 
и 
ра 1—1 
О = Ым— 


0.9 


9 


где 7; — абсолютное значение длительности, мс, каждого сегмен- 
та 1; у; — выборки І. 


Исследование включало три серии проверки наличия — 


отсутствия корреляции по длительности между следующими 
элементами высказывания: 


І. Двумя рядом стоящими звуками слбва в составе фразы по схе- 
ме: Ги Гг С. 


П. Звукосочетаниями слова в составе фразы по схеме: СГ 
СС иа ОГ. 

ПТ. Гласными слова в составе фразы по схеме: (С)Г — (СО)Г. 

Измерение коэффициента корреляции и проверка гипотезы Но 
о независимости связи по длительности между звуками С — Г 
и Г—С, взятыми последовательно в пределах каждого слова 
в составе анализируемых фраз, показали, что для английского 
и немецкого языков результаты идентичны в плане общности 
тенденции, но не идентичны в плане частоты встречаемости. 


Для английского языка характерно наличие отрицательной 
корреляции по длительности между гласным и последующим со- 
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гласным в структуре слова независимо от позиций этого слова 
во фразе. Наличие отрицательной корреляции в данном случае 
означает, что изменение длительности глабного в сторону уве- 
личения ведет к уменьшению длительности последующего соглас- 


ного и наоборот. В сочетании С — Г ни положительной, ни отри- 
цательной корреляции по длительности регулярно почти не наблю- 
далось. 

Для немецкого языка была выявлена отрицательная корреля- 
ция также для сочетания Г — С, однако только в составе слов, 
занимающих конечную позицию во фразах. Корреляции по дли- 
тельности между начальным согласным и последующим гласным 
обнаружить не удалось. 

Проверка Но гипотезы о независимости связи в соответствии 
с задачей П серии исследования показала, что как для английско- 
го, так и для немецкого языков характерно наличие положитель- 


ной корреляции по длительности между сегментами СГС и (С)Г 
внутри слова. Корреляции по длительности между сегментами 


СГ и С(С)Г в составе тех же слов не наблюдалось. 

‚ Сопоставление длительности гласных внутри структуры слова 
показало, что между гласными слова существует положительная 
корреляция. Причем применительно к немецкому языку следует 
констатировать наличие более регулярной картины в плане кор- 
реляции по длительности между гласными слова. 

Резюмируя все выше изложенное, можно утверждать: 

1) для обоих языков характерно наличие отрицательной корре- 
ляции по длительности между гласным и последующим соглас- 
ным — ГС; 

2) для обоих языков характерно наличие положительной 
корреляции по длительности между частями слов, взятыми по 
принципу: СГС — (()Г; 

3) для обоих языков характерно наличие положительной 
корреляции по длительности между гласными в структуре слова. 

На основании полученных данных логично далее предполо- 
жить, что длительность элементов речевого высказывания характе- 
ризуется не только единой программой, но реализуется между 
элементами высказывания’ с разной степенью значимости и имеет 
иерархический характер. 

Принимая во внимание иерархический (многоуровневый) ха- 
рактер зависимости по длительности между элементами высказы- 
вания, представляется вполне целесообразным в процессе ис- 
следования временной организации элементов высказывания поль- 
зоваться следующей схемой: вычленение в качестве объекта 
исследования временных связей: а) на уровне фраз; б) на уровне 
слога; в) на звуковом уровне. 

На материале наших данных вычленение в качестве объекта 
исследования временных связей на сегментном уровне показало. 
что для английского и немецкого языков подтвердилась пра- 
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вомерность утверждения относительно наличия отрицательной 
корреляции по длительности между гласным и последующим со- 
гласным. Однако в отличие от данных, полученных ранее, длитель- 
ность анализируемых сегментов рассматривалась не в изолирован- 
ном звукосочетании типа ГС и не в структуре изолированного 
слова, а в структуре фразы. Дальнейшее варьирование сегмен- 
тов в плане изменения характера комбинаторики последних пока- 
зало, что для исследуемых языков в целом ряде случаев имеет 
место значимая временная зависимость между сегментами, ском- 


бинированными по типу СГС — (()Г. 

Что же касается корреляция по длительности между гласными 
слов во фразе, то здесь, очевидно, мы имеем дело скорее не с 
временной организацией сегментного уровня, непосредственно 
связанного с эффектом коартикуляции, а с временной организа- 
цией, связанной в большей степени с реализацией гласных по оп- 
ределенной временнбй программе в структуре слова, являюще- 
гося частью более сложного просодического целого — ритмиче- 
ского рисунка фразы. 

Дальнейшее принятие во внимание масштаба фразы также 
привносит нечто своеобразное в картину временнбй зависимости 
частей внутри целого. Как показали результаты наших ранних 
исследований на материале других языков, в данном случае на 
первый план выдвигается влияние на длительность элементов по- 
зиционного фактора. Например, позиция конца фразы, характери- 
зующаяся общей для различных языков тенденцией к увеличению 
длительности, представляет большую возможность для выявле- 
ния временной зависимости между элементами высказывания. 

На основании изложенных данных можно полагать, что времен- 
ная структура речевого высказывания представляет собой не про- 
сто комбинацию значений длительности элементов, составляющих 
высказывание, а более сложную некоторую целостность, членя- 
щуюся на относительно автономные, внутренне связанные един- 
ства, подчиняющиеся как внутренним законам этих отдельных 
единств, так и законам всей целостности. 

Полученные данные о наличии временной связи в закрытом 
слоге СГС в английском и немецком языках были подвергнуты про- 
верке на перцептивном уровне [8]. В результате перцептивной 
сегментации и дальнейшей идентификации сигнала было обнару- 
жено, что для носителей английского и немецкого языков одним 
из основных реальных типов распознаваемой слоговой структуры 
является закрытый слог СГС. Реализация конечного согласного 
при кратком слогоносителе содержит качественно-количественную 
информацию, позволяющую носителям языка правильно иденти- 
фицировать тип слога. 

При описании алфавита слоговых структур, с. нашей точки зре- 
ния, более корректно учитывать типологические особенности сло- 
га того или иного языка в целях наиболее адекватного описания 
[6, 7]. Определяя слог как элементарную сегментно-супрасегмент- 
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ную целостность, характеризующуюся набором объективных И 
субъективных признаков, можно полагать, что слог как резуль- 
тат действия фонотактических правил языка и как результат про- 
цесса речепроизводства проецируется на акустическую плоскость 
и благодаря этому может быть выделен чисто условно в терминах 
его акустических коррелятов: 

1. Слог — единица языка. Сообщение в лингвистических еди- 
ницах, представленное нервными образцами и нервными коман- 
дами к мышцам. Здесь слог — часть языкового звука, границы 
которого определены правилами фонотактики языка. 

2. Слог — единица речи: а) артикуляторные жесты. Здесь 
слог — последовательность артикуляторных жестов; б) речь, 
представленная акустическими сигналами. Здесь слог — сегмент- 
но-супрасегментная единица. 

3. Слог — единица восприятия: а) слуховой анализ речевого 
сигнала. Здесь слог — последовательность сегментов и комплекс 
просодических признаков; б) сообщение в лингвистических едини- 
цах, расшифрованное из слуховых образцов. Здесь слог — часть 
языкового знака, совпадающая или несовпадающая с языковыми 
единицами других уровней. 

Думается, что центральная проблема, на решение которой 
должен быть ориентирован один из этапов процесса распознава- 
ния слитной речи, заключается в поиске алгоритма распознава- 
ния сложного объекта на языке свойств его составляющих. Это 
можно представить в виде установленного однозначного соответ- 
ствия между одним из подмножеств множества свойств частей 
целого и некоторым подмножеством множества свойств целого. 
Таким путем можно, очевидно, дать исчерпывающее описание 
всего множества свойств сложного целого. При этом необходимо 
опираться на лингвистические правила порождения высказыва- 
ния в рамках той или иной языковой системы в целом. Весьма 
спорным представляется поиск универсальной программы выбора 
опорной элементарной структуры. Выбор последней детермини- 
рован целым рядом факторов. Важно при этом анализировать и 
описывать признаки опорной элементарной структуры с позиций 
интегративности, учитывая влияние, обусловленное своеобра- 


зием реализации опорной элементарной структуры в слитной 
речи. 
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Рекуррентное оценивание параметров 
речевых сигналов 


Введение. Задача оценивания параметров речевых сигналов, 
характеризующих состояние артикуляторного аппарата при про- 
изношении звуков речи, по-видимому, может быть успешно реше- 
на с помощью методов прикладной статистики и теории случайных 
процессов. Такое направление исследований рассматривается в 
значительном количестве публикаций, посвященных различным 
аспектам проблемы анализа речевых сигналов [1—4]. Особенно 
большое внимание уделяется методам линейного предсказания, 
когда в качестве исходной модели сигнала используется конечно- 
разностное уравнение относительно невысокого порядка. Примене- 
ние этой модели оказывается весьма полезным, так как допускает 
выбор оптимальных или близких к ним алгоритмов оценивания [3, 
4], и, кроме того, полученные с помощью таких алгоритмов пара- 
метры достаточно хорошо отражают динамику артикуляторного 
аппарата в процессе произношения звуков речи [4]. В своем пер- 
воначальном виде указанные алгоритмы являлись довольно слож- 
ными процедурами, что затрудняло не только техническую реа- 
лизацию, но и моделирование на ЭЦВМ [5]. Упрощение этих про- 
цедур может быть достигнуто посредством применения рекуррент- 
ных вычислительных приемов. К этому выводу практически одно- 
временно пришли отечественные и зарубежные специалисты [6— 
10], после чего рекуррентные алгоритмы стали применяться как 
для решения систем автокорреляционных уравнений [10], так и 
для непосредственного оценивания параметров речи [6—9, 11, 12]. 
Дальнейшие исследования показали, что, по крайней мере во вто- 
ром случае, не все простые и известные в других приложениях 
алгоритмы могут быть одинаково успешно применены в задаче 
анализа речи. Специфика сигнала, его ярко выраженная нестаци- 
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онарность приводят в отдельных случаях к резкому снижению 
скорости сходимости и/или к увеличению остаточной погрешности 
анализа. 

Эти трудности могут быть преодолены с помошью улуч- 
шения исходной модели, а также посредством разработки (или 
выбора) рекуррентных алгоритмов, согласованных с особенностя- 
ми структуры реального сигнала. Отмеченные направления раз- 
виваются многими специалистами [7, 11—13 и др.]. 

Настоящая работа посвящена вопросам построения рекуррент- 
ных алгоритмов с учетом структуры сигнала, а также возможно- 
стям снижения погрешности оценивания. 

Модели сигнала. Будем предполагать далее, что речевой сиг- 
нал ‘образован прохождением некоторого возбуждения Ё; через 
линейную систему с дробно-рациональной передаточной функ- 
цией. 

В этом случае справедливо следующее конечно-разностное 
уравнение: 


д 07х11, ТЕ нь (1) 


где х; — центрированная математическим ожиданием последова- 
тельность случайных отсчетов речевого сигнала; ё; — последова- 
тельность отсчетов возбуждения речевого тракта, которую удобно 
считать некоррелированной (когда это предположение неправо- 
мерно, характер &, будет уточняться); $ — нормированное дискрет- 


= [9,, ..., 9,1, 07 =. [ро, 6, ..., 611 — парамет- 


, Е ^^ і А 
ры модели; хеш = [23-3  Хеть 0, 08117, а = [на 
но, ..., 67; 9, 6 — векторы параметров, постоянных на 
интервале локального постоянства Г = 10 —— 20 ме. 
В частном случае б = Ь, уравнение (1) приводит к модели ли- 


нейного предсказания 


д = би 4- В, (2) 


ное время; 97 


где обычно полагают т = 8 - 12, 6, = 1. 


С точки зрения анализа модель (1) является более сложной, 


чем (2), так как неизвестные параметры {5,};-, перемножаются 
с ненаблюдаемыми отсчетами последовательности &,. В некоторых 
случаях, в частности на вокализованных участках незашумлен- 
ного сигнала, это обстоятельство, по-видимому, не приводит к 
значительным затруднениям [14, 12]. | 

Модели (1), (2) характерны тем, что при их использовании оце- 
нивание параметров следует проводить совместно. Определенный 
интерес вызывает вопрос о возможности построения модифици- 
рованной модели на основе (1), (2), допускающей последователь- 
ное (поочередное) оценивание параметров. С таких позиций в [14] 
была разработана многоэтапная модель сигнала, которая в част- 
ном случае совпала с моделью, предложенной К. Цакога. 
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Уравнения многоэтапной модели имеют вид 


+в; (1) = в еп (0 — ({ — 1)1 Рон, 
чел (0) = +8; (0) — а еп (Ё — (1—1) 1 — 1), 


вн (0) = 78; (0 — а те, ЩЕ + (1 — 1)1 + 1), (3) 
+е1(0) — 21, 81(7 Ей ) 24-3» ё;,П (+ ч Л) = | ё; (1 =], тки 
зла ету, ерп @ = 01800,... чет 
= 1)17, а; = а: Яо зу • у ру 017 — т Хх й $ = Ь, 9 8 


... ті; т! — целое число и в упомянутом частном случае 
1 = 1; а; — вектор локально-постоянных параметров, которые 
могут быть пересчитаны в {9}. 

Достоинством модели (3), кроме возможности последователь- 
ного оценивания, является связь коэффициентов а; с цилиндри- 
ческой аппроксимацией речевого тракта [13], что указывает на 
ее хорошую согласованность со структурой реального сигнала. 

Предположение о локальном постоянстве параметров может 
быть снято, если задать характер их изменения во времени. Так, 
например, естественным обобщением является переход к марков- 
ским параметрам в (3): 


а; (0) = Е;а; &—1-- С; (0, (4) 


где коэффициенты Ё;, С; известны априори; 1; (#) — некоррели- 
рованная последовательность случайных величин. 


Такие общие ситуации рассмотрены в [14, 15]. 

Алгоритмы оценивания на основе оптимальной рекуррентной 
фильтрации. Оценивание параметров модели линейного предска- 
зания совпадает с задачей идентификации линейной системы, вход- 
ной и выходной сигналы которой связаны уравнением (2). Субоп- 
тимальный рекуррентный алгоритм оценивания (идентификации) 
при гауссовской последовательности ё; и некоторых ограничениях 
на начальные условия (5, &) может быть получен из общих урав- 
нений фильтрации условно-гауссовских последовательностей [16]: 


9 і Т # Е Т ї і 
И == Ш; | 7; [00 + (Хна-т) У: н1-т] [тыл — Ш; Х!41-т] ХНл-т, 
Я 9 Я Тт 1 ОГ. тт 
Үн = + — УХ нл-т [бо +- (хіт) Үү:Х1-т] 1 (Хнл-т) ү, (5) 


где 2%; — оценка вектора ® в момент времени #; 6, — может быть 
принят равным единице. 


В отличие от оптимального алгоритма в (5) предполагается 
относительная произвольность начальных условий (7%, о). При- 
менение процедур, подобных (5), описано в ряде работ зарубеж- 
ных авторов [3, 4, 12]. Однако сложность алгоритма, которая 
обусловлена необходимостью вычисления матрицы тү;, в значитель- 
ной мере ограничивает его практическое использование. Сущест- 
венное упрощение (5) при сохранении основных достоинств дости- 
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гается изменением второго уравнения 


т 
№; == Ш; 4 Хна [на — Е ХНл-т] Хнл-т, (6) 
1-1 | т. 1 —1 
хн = [146 Ух ыы Га [Ат 52|, (т) 
о 0 
. т—1 
где х:.: — константа сходимости; | хі „| = У 22. 
1=0 


Нетрудно убедиться, что {(6), (7)} совпадает с (5) в случае 
одномерного 9. 

Эвристический способ построения уравнения (7) не гаранти- 
рует сходимости оценок т; к истинным параметрам, поэтому воз- 
никает необходимость теоретического анализа свойств предложен- 
ного алгоритма. Такой анализ со значительным сокращением 
приведен в приложении 1, где возбуждение Ё, полагается некоррели- 
рованной шумовой последовательностью. В реальном случае, 
когда оцениваются параметры вокализованного участка речи, это 
предположение не выполняется. Однако с помощью простых 
рассуждений можно убедиться в правомерности вывода о сходи- 
мости алгоритма и для реального сигнала. 

Действительно, на интервалах между импульсами основного 
тона модель (2) вполне приемлема, так как отличие речи от про- 
цесса авторегрессии можно учесть введением эквивалентного 
некоррелированного шума, действующего на входе системы (2) 
и образующего вместе с шумовым возбуждением эквивалентный 
входной сигнал Ё,. Тогда приведенные в Приложении 1 резуль- 
таты дают основание утверждать, что на указанных интервалах 
сходимость имеет место. Полагая импульс основного тона доста- 
точно коротким (это всегда можно делать, относя отличие реального 
импульса от предполагаемого к влиянию системы (2) с пара- 


метрами {9;};-1), рассмотрим алгоритм { (6), (7)} в момент, совпа- 
дающий с временнбй координатой импульса. Заметим, что вели- 
чина | 2; | с приходом импульса возбуждения резко возрастает 
и, таким образом, константа х; резко убывает, компенсируя локаль- 
ное возрастание уклонения [51.1 — 2% Ж-л-т|. Следовательно, 
влияние наблюдений 2; в отмеченные моменты времени на про- 
цедуру оценивания должно быть незначительным. 

Несомненно, что приведенные рассуждения нуждаются в экс- 
периментальном подтверждении. 

Алгоритм {(6), (7)} применительно к многоэтапной модели с 
1 = 1 принимает форму 


т: (#1) = т; (0) 4 х; (Е 1) + (2 У 175 (2—1 - 1), (8) 
м0 = [1+ 800—0], а (9) 
4 
где т; (1) — оценка а; в момент ї; +в (ЕР 1) = *е; (ЕР = 
— т; (#)-е,; (2 + 1 — 2). | 
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Е яг 
+ 


-63(-2) Е(#-т) 


Рис. 1. Блок-схема анализа- 
тора речевых сигналов 


Процедура оценивания {(8), (9)} может быть организована дву- 
мя способами: последовательно, когда сначала оценивается пер- 
вый параметр а; по некоторому сегменту 2,  =В Ё-1,....Ё- М, 
затем а. по сегменту хр, А =Е&-+ № + 1, ..., Е + 2Мит.д., и 
параллельно, когда все параметры оцениваются одновременно 
с обязательной проверкой условия | т: (1) | <1 в каждый 
момент времени и установкой т; (#) =ѕрп т; (1), если это усло- 
вие не выполняется для какого-то у. Последовательное оценива- 
ние реализуется в структурной схеме рис. 1, где блоки т; (1), в 
которых осуществляется усиление сигнала с весом т; (К, управ- 
ляются выходными сигналами интеграторов И. 

Алгоритм (6) при различном выборе х; уже применялся в за- 
даче анализа речи [6, 7, 9], и в связи с этим в [14] отмечаются 
свойства таких алгоритмов в сравнении с {(6), (7)}. 

Отметим попутно несколько эвристических приемов ускорения 
сходимости предложенного алгоритма. Так же, как и в обычной 


стохастической аппроксимации, можно ввести контроль знака 
У 8 
погрешности [2; — 2; 0:2]. Тогда изменение константы х; сле- 


дует производить лишь после изменения знака этого уклонения. 
Допустимо также многократное прохождение по одному сег- 
менту реализации в ускоренном масштабе времени. 
Рекуррентная интерполяция в задаче анализа речи. Алгоритмы 
оценивания‘ (5) — (9) хорошо приспособлены к последовательному 
поступлению наблюдений х; на вход анализатора. При этом уст- 
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-ройство функционирует в реальном `масіїтабе времени. Вместе ё 
тем на практике часто имеется возможность регистрировать фраг- 
мент реализации сигнала в устройстве памяти. Так, в случае ана- 
лиза на ЭЦВМ такой фрагмент равен массиву, считываемому с 
устройств внешней памяти в ОЗУ, и может составлять около 
4.103 отсчетов (-—0,4 мс при интервале дискретизации 0,1 мс). 
В такой ситуации появляется возможность улучшить точность 
оценивания за счет эффекта накопления. 

Сформулируем задачу более строго. Пусть имеется фрагмент 
сигнала длительностью Т, а в качестве исходной принята много- 
этапная модель с / = 1. Поскольку оценка первого параметра 
не зависит от оценок последующих параметров, рассмотрим оце- 
нивание лишь на первом этапе. Исходные уравнения этого этапа 
выпишем на основе (3), (4) в виде (2.1), (2.2) — см. приложение 2. 
Формально (2.2) неправомерно, так как значения а. (#) не должны 
выходить за пределы [—1, --1], однако при достаточно малой 
дисперсии а; ($) можно с целью упрощения результатов применить 
введенное уравнение. 

Необходимо оценить а, (1), ЕЕ 10, Т] оптимальным в рамках 
(2.1), (2.2) образом, используя весь фрагмент реализации &;. 
Подобная задача решается методами теории оптимальной интер- 
поляции [16], однако реализация известных процедур вызывает 
затруднения. В связи с этим в приложении 2 получено новое 
уравнение оптимальной интерполяции для (2.1), (2.2), при кото- 
ром процедура оценивания сводится к двукратной обработке фраг- 
мента [0, 7] в прямом и обращенном времени с помощью одного 
рекуррентного алгорита, вытекающего из уравнений оптималь- 


ной фильтрации. В квазиоптимальном случае процедура интерпо- 
ляции описывается выражениями 


а+ т/а = Ру + Е. Ет; + 2+0, [2; — Жтт], 
а+р Иа = —2Е,.+р), -- 6/2 — 2+0), (10) 


где +т;џ, +0, — оценки и их дисперсии в прямом времени (знак 


«|»; $ возрастает от 0 до Г) и обращенном времени (знак «—»; 
їі убывает от 7 до 0). 


Окончательная оценка т; параметра а;; и дисперсия П, удов- 
летворяют соотношениям 


т/р; == +т/ +), -- -т;/>), са Е == Ға 
П ва ПД, ЧО, 180 Р, (14) 
где РД. — дисперсия а. ($. 


Таким образом, используя приведенные уравнения, можно 
оценить траекторию параметра а; (1), і Є [0, Т] и затем перейти 
к оцениванию параметров последующих этапов с помощью ана- 

логичной процедуры, либо посредством алгоритма {(8), (9)}. При 
локальном постоянстве параметров модели, т. е. РЁ == 
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о = Ру = @, 


= 0, а, (0) = ау и малом Т, уравнения для оценок в дискретном 
времени получают вид 


А ї —1 К р 
Зина == т, | [1 РУ я [2 — пит 2-1, 
1—1 


„е. +1 а. 
"а = Т + [1 те № 2 [2; — тян на. 
т 


(12) 


При больших # #5; == `х.. 

Отличительной чертой {(11), (12)} по сравнению с {(8), 9) 
является выравнивание влияния наблюдений 2;, 0, ‚В 
формирование оценки. Действительно, в случае {(8), (9)} аз 
дения в левой части интервала имеют больший вес, чем остальные, 
из-за монотонного убывания х;. 

Экспериментальное исследование алгоритмов рекуррентного 
оценивания. Экспериментальная проверка алгоритмов {(6), (7)} и 
{(8), (9)} была выполнена с помощью моделирования на ЭВМ 
«Минск-22». В качестве исходного материала были использованы 
шесть слов, произнесенных мужским и женским голосами (м.г.) 
и (ж.г.). Речевой сигнал был получен с помощью электродинами- 
ческого микрофона и представлен в дискретной форме со следую- 
щими параметрами: частота дискретизации — 10 кгц, ширина 
спектра — 4 кгц, количество уровней квантования — 28. 

Обработка сигнала при моделировании последовательного оце- 
нивания согласно {(8), (9)} была организована следующим обра- 
зом: реализация разбивалась на сегменты длительнотью 12,8 мс, 
на которых проводилось оценивание; в качестве начальных ус- 
ловий на каждом сегменте принимались оценки, полученные на 
предыдущем сегменте; начальные условия на первом сегменте 
были нулевыми; количество параметров было равно 10. 

На рис. 2, а приведены нормированные корреляционные 
функции процесса +, (1) с величиной дисперсии 05 для слова 
«миллион» ж.г. (02 = 0,132; г. (0) = 1) и на рис. 2,6 — «логарифм» 
м.г. (02 = 0,14; г. (0) = 1). На рис. 3 показаны сегменты реали- 
заций +810 (1) и 2; для слова «миллион» м. г. Следует уточнить, что 
столь четкое проявление импульсов основного тона в реализации 
+210 (Г) наблюдается не на всех сегментах. Динамические траек- 


тории оценок {т; (ү, при наличии белого шума наблюдения 
с отношением шум/сигнал 0,1 для слова «логарифм» м.г. показаны 
на рис. 4, где $ — количество итераций алгоритма оценивания, 
Траектории оценок т; и текущей нормированной дисперсии 
62 = +81/21 для слова «миллион» м.г. иллюстрируется рис. 5. 
С помощью двухстороннего порогового ограничения +; (РГ) для 
полностью озвученного отрезка слова «миллион» м.г. были выде- 
лены координаты и амплитудные значения импульсов возбуждения, 
которые использовались при синтезе исходного сигнала по 
оценкам параметров. Нормированные корреляционные функции 
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Рие. 2. Корреляционные функции процесса +815 (В 
9 
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Рис. 3. Фрагменты реализаций 
сигнала и уклонения *еџ, (+) 


тч ая Рис. 4. Динамические траек- 
0 Д - р 
тории оценок {т (1)} 


Рие. 6. Корреляционные функции исходного и синтезированного сигналов 


исходного и синтезированного сигналов приведены на рис. 6. 
Исследование квантования оценок по остаточному процессу +=, ($) 
показало возможность квантования на 25 — 26 уровней без су- 
щественного изменения характеристик *е;, (Ё). | 

Результаты применения алгоритма { (6), (7)} оказались несколь- 
ко хуже и из-за ограниченности объема настоящей работы не при- 
водятся. 

Сделаем несколько замечаний: 

1. Близость корреляционных функций +, (7) к корреляцион- 
ной функции некоррелированной последовательности указывает 
на достаточно высокую точность оценивания и хорошую согласо- 
ванность модели с реальным сигналом. 

2. Характер реализации +8, (1) подтверждает замечание 1, 
иллюстрируя в отличие от усредненных корреляционных функ- 
ций текущее качество оценивания. 

З. Точность оценивания параметров речи, произнесенной жен- 
ским голосом, несколько хуже, чем мужским (см. рис. 2). 

А. Наличие импульсов основного тона и шума наблюдения не 
приводит к расходимости алгоритма, что подтверждает приведен- 
ные ранее рассуждения. Вместе с тем в начале процедуры оцени- 
вания импульсы возбуждения могут влиять на формирование 
оценок (см. рис. 4, $ = 50, #& = 135). 
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Проведенная экспериментальная проверка разработанных на 
основе теории фильтрации алгоритмов позволяет сделать вывод о 
целесообразности их применения в задачах синтетической теле- 
фонии или ‘автоматического распознавания слуховых образов. 
В последнем случае получаемые оценки могут быть использованы 
как для расчета формантных параметров, так и в качестве первич- 
ного описания сигнала, что, вероятно, более привлекательно. 

Несомненный интерес представляет экспериментальное иссле- 
дование рекуррентных алгоритмов интерполяции, которое, по-ви- 
димому, составит содержание последующей работы в этом направ- 
лении. | 

Приложение 1. Для краткости рассмотрим одномерный слу- 
чай. Алгоритм оценивания 9 при каждом фиксированном # можно 
представить в форме 


т) == т). Е ху (2, = тб 2-1) 2-1, (1.1) 
== [1 + У | 5, (1.2) 
—— [10-1 | 


где х. = да + Ё, 0%а<1 0<у<Е>0 т=0, 
— оо < п < оо, [1%] — целая часть їх. 

Введем следующие ограничения: 
1. Последовательность Ё некоррелирована и ГЁ, = 0, ЕЁ = 
== 02 < со, ЕЁ < оо. 2. Случайная последовательность 2; ста- 
ционарна и удовлетворяет условию равномерно сильного пере- 
мешивания (р.с.п.). 3. Ел! < оо, |0 |< 1, Ел, = 0, Ед < оо. 
Тогда справедлива следующая теорема. 

Теорема. 

1. При выполнении условий 1, З оценка т, определяемая 
из (1.1), (1.2), сходится в среднеквадратическом к ®: 

1.1.00. = 9. (1.3) 


{—>оо 


2. Пусть имеют место ограничения 1—3. Тогда оценка т 
асимптотически нормальна 


2 


ЕЕ (0 — т] — В =. \ ехр > = 02, 104) 


х 
ізо с; Ум 9. 2 


где /Г, (2) — функция распределения величины 2. 
Докажем сформулированную теорему. Введем текущее откло- 
і і 
нение с“) = 9 — ш®. Следовательно, 
р. 
а у тна 
с® = [1 — куа? |] с — Ку, с® = ПИ— Жк] бо — 
к=1 


У У 
к= 


Жак П Ш — хм |]. 
1 ка 


Далее будет полезна вледующая лемма, которую приведем 
без доказательства. 

Лемма. 

1. В случае ограничений 1—3 имеют место соотношения 


же ЗАЛА + (2 Е 1) 08], 
хе = (1—2 М (ЕЕ 2) 0) 51 — ови + (Е 02) 08]. 


_ 2. Последовательность Хр = рб, — 00 < р < оо удовлет- 
воряет условию р.с.п. Используя лемму, вычислим следующий 
предел 

і 


НР. ВИЕ а 
за с} (2 4- [122] ) о? ). табы | 


1. іт Е |2) = вшЕ[П Хксо + 


К=0 


4 У У ИА 123-1535; П Хі П Хт — 


{—=0 2—0 Зас т==)-|-1 
— 2 П ХкСо 9. Хит т П хи == 
к=0 [—т--1 


а о а 
із 1(1+1# 12 ЧЕ) 0»)? 


1 1 
Е 4 в. 
2. п (Е 4 Е у. у. Я иле "= 


о 
0 1 
п ВАНН | 


2 е4 
оо 05 Ё [2] 


і 
А 2 
р неа 2 = 


к=—[1%]4-1 
1 1 п 
=: Е». у. к-т Кб П 1 Е: 
Е 1) 05 ты: к 
=0 рі] =к+1 
2 
ыы | ПРИ МИРТА. Ее 0 
Б 90-1 атла 
о 8 2 18] 08 
Следовательно, 
НЕЕ и. бе 19 
И, (1.5) 
{—>со б 5; | 
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где 5, = Ў жк, 8 = (0 4 19) 0202; 5 = Е. Из (1.5) следует 
первое пастет ачи теоремы. Заметим, что 

Е | 21-151 Ё < оо, 

в | 2415—1942 +... 4 20-25, В = (6 [2] охо о 


и, таким образом, утверждение 2 леммы позволяет воспользовать- 
ся центральной предельной теоремой (см. 18.5.1 117]), что непо- 
средственно приводит к (1.4). 

Приложение 2. Исходные уравнения имеют вид 


аа (2) = [Ри + Ра (01 а + бат, (0), (2.1) 

ау ( = а (0) х (1 — т) 0 -- Ват (1, (2.2) 
где { — непрерывное время; т; (1), т (1) — некоррелированные 
и неровские процессы; а (1) = а, (0); ду (1/4 = 2 (0); Ея, Е, С, 
Вё — известны априори; т = Лі, Лі — интервал дискретизации 
при дискретном {. 

Выполняя вывод уравнения для функции плотности вероят- 
ностей л(а1/ж)`) аналогично [18], получаем выражение 

1 


л (аг [хо ) = Атл (а ов о Сараа) ехр|— = \ [== атац х 


0 1— 
те 
- Е Г о, 
Жл ' (а) л (ана/ хе) Р (211/4) ехр [= Бг} 1 11— ат], 
(2.3) 
где а1 = (а, а,,..., ат), 01 = (д0, 5, . . ., т) — траектории 


процессов ах, 2; на интервале [0, 7]. 


Тр е 
Интегрируя л (а /©), приходим к искомой плотности 


14-1 
Р 1 
7; (а/хо ) = Атехр 1— В \ [2 — 01201]? а х 
0 1—1 
оо Е. со А 
х \ 71-1 (а 1/хо ) р (91/91) 0-1 \ л (а) Х 
Х лы: (911/ і) р (911/9) далд. (2.4) 


Из прямого и обратного чи Колмогорова имеем: 
Р (аа, 1) = ӧ и — @1- ыы аа А =— Ры -- ац) 6 (а, — @-1)1 + 


+408 м аа) 0(4*), (2.5) 
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р (ана) = 8 Й а) — (Ро + Ра) 2 бин а) — 
54-5 т (и-1 — а,) + 0 (4?). (2.6) 


Подставляя (2.5), ий в (2.4) и вычисляя Кт с помощью 
предельного перехода Л -> 0, приходим к выражению 


"ли (а) 77; и (о ДО == ЭРА) (Т аА) х 
х (1 + есч Ер 
и 


х КР 4- Рау ла (а) + А 16%. ай х 


(2.7) 


х (ты (21) — А (Е + Ра.) 9 Глина (а+)] — 
4 02 _ 
76 —5- Аб? де Лі («9 А 


ӘТ" в. | Т 
где +л; (а) = лу (4/20); 77, (4) = лу (4/2). 
Следовательно, +л (а,) удовлетворяет обычному уравнению 


фильтрации, а тля (а;) определяется выражением в обращенном 
времени 


м, (а, 
——=-— (Ро + Р) эг (0) 6 от л: (а) + 


+ Г — С + Ея (а), (2.8) 


7 2, == 2 
где тЁ = — (1/Бо) [1; — ах; СЁ = — (1/Во) [2; — аа). 
Выражение, связывающее л (0/01) с +л (а), 5л (а), получа- 
ется непосредственно с помощью формулы Байеса 


Д 16 і Т 
т л(хо)л (х) л (а,/х)л (2/1 х; ) 9 
ее (2.9) 
л (ху) р 
В гауссовском приближении из (2.8) и обычного уравнения 
фильтрации вытекают уравнения (10), а из (2.9) — (10). 
Заметим, что при 23; = 1 из полученных выражений вытека- 
ют результаты [19]. Содержание этой работы в значительной мере 
определило интерес к рассмотренной постановке задачи. 
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Е. И. Кабанова 


Процедуры представления сигналов, 
искаженных нестационарными помехами 


В задачах интерпретации и распознавания обычно использу- 
ется аддитивное представление исходных описаний через заданные 
функции. Для достижения хорошей аппроксимации эти функции 
должны отражать специфику описываемого процесса. В рабо- 
те [1] обсуждается проблема представления описаний экспери- 
ментальных данных. Настоящая статья является развитием этой 
работы. Рассматривается представление экспериментальных кри- 
вых смесью экспоненциальных функций не только при стационар- 
ных, но и при нестационарных шумах записи. Используется метод 
«анализа через синтез», 


80 


Для исходного описания сигнала 5 (х), измеренного в точках 
21, 2,..., Ми при заданном п и заданной системе экспонен- 


циальных функций Ф; (2), Фф, (2), .. .,Фъ (2), где тп, строится 
модель сигнала 


Е (2) = 2 ВьФь (2). 


Число ненулевых компонент невелико (2 или 3) и зависит от струк- 
туры исходных описаний. Параметры В+, В, ..., Вю образуют 
представление 6, выходной вектор процесса. Представление оп- 
ределяется рекуррентно 


Б = Е (5, Р (Б), т), 


где Е — правило последовательноїо уточнения представления 6; 
т — время процесса переработки описания в представление, но- 
мер шага. Правило определяется сравнением 5 и / и оптимиза- 
цией Г по некоторому показателю качества О. Предполагается 
[2], что функция О известна с точностью до параметров 6, которые 
должны быть определены в процессе переработки. Таким образом, 
задача сводится к определению конечного числа параметров 
В., В, ..., Вт. В рассматриваемой задаче этими параметрами яв- 
ляются ненулевые интенсивности и соответствующие им постоян- 
ные времени экспонент. 

Один из способов решения задачи многопараметрической оп- 
тимизации — однопараметрический поиск по частным показате- 
лям качества (метод Гаусса — Зайделя). Он состоит в цикличе- 
ском чередовании оптимизаций по всем управляемым параметрам. 


Для решения задачи используется один частный показатель ка- 
п, 


чества, например квадратичный: 0; в [5 (2) — Р (2)]? 


Координатор Ј задает порядок обращения к управляемым пара- 
метрам. На каждом этапе поиска происходит минимизация показа- 
теля О; по рассматриваемому параметру, и полученное значение 
параметра вводится в модель сигнала Г. 

Применение метода [2] удобно, если параметры функции ка- 
чества О независимы. Отсутствие перекрестного влияния парамет- 
ров дает возможность в процессе оптимизации обращаться к .каж- 
дому параметру лишь один раз, так как для такой функции по- 
ложение экстремума по каждому параметру не зависит от значе- 
ний других параметров. Поэтому задача решается за один цикл, 
и результат не зависит от порядка оптимизации параметров. 

В работе [1] исходное описание представляет собой смесь трех 
экспонент с равномерным шумом. Относительная независимость 
оптимизаций по частным показателям качества обеспечивается 
Еа описания и его модели режекторными аш еслаиа 


Я = У аЕ", 


ЕТ 


где Ену (1) = у (= -- ЕЛа). Простейший режектор не пропускает 
экспоненциальный сигнал, на постоянную времени которого он 
настроен. На каждом этапе оптимизации осуществляется фильтра- 
ция сигнала двумя режекторами, настроенными на компоненты, 
которые не рассматриваются на данном этапе. Выделенная компо- 
нента оптимизируется независимо по постоянной времени и по 
интенсивности. 

Настройка режекторов производится по приближенным зна- 
чениям параметров, поэтому за один цикл процесс не сходится. 
На следующем цикле настройка режекторов корректируется, и 
после оптимизации модель сигнала становится более точной. Про- 
цесс сходится за 3—4 цикла. Недостатком использования режек-. 
торных фильтров является уменьшение интенсивности выделяемой 
компоненты по формуле Ав = А, (ехр (—В, Ах) — ехр (—В,Л2)). 
- (ехр (— В, Ах) — ехр (—ВзА1)), где А;, В, — параметры выделяе- 
мой компоненты; В., Вз — постоянные времени подавляемых ком- 
понент; Ав — интенсивность сигнала на выходе фильтра. 

При сближении постоянных времени различных компонент от- 
ношение сигнал/шум резко ухудшается. При малых интенсив- 
ностях сигнала шумы в основном определяются флуктуациями 
в электрических цепях измерительного устройства [3]. 

При средних и больших интенсивностях возрастает влияние 
шумов, связанных с наложением импульсов и неполным собира- 
нием заряда. Шумы оказываются нестационарными, причем наи- 
большая интенсивность шума наблюдается на начальном участке 
записи. Исходное описание представляет собой смесь двух экспо- 
ненциальных и одной постоянной компоненты. Из-за шума на 
начальном участке записи не удается достаточно хорошо оценить 
параметры быстрой экспоненты после подавления медленной 
режекторным фильтром. Настройки режекторов оказываются 
слишком грубыми, процесс расходится. 

Сходимость обеспечивается членением записи на участки, 
в каждом из которых доминирует одна компонента. Это участок 
записи, на котором интенсивность рассматриваемой компоненты 
значительно превосходит интенсивность других компонент. На 
таком участке можно оценить оба параметра экспоненты, осущест- 
вляя оптимизацию по одному показателю качества. Понизив таким 
образом размерность задачи, удается сохранить независимость 
оптимизаций по частным показателям качества. Параметры, оп- 
ределяющие членение записи, задаются. 

Вычисляются приближенные значения параметров компонент. 
По этим оценкам формируется модель сигнала. Осуществляется 
циклическая оптимизация показателей качества на соответствую- 
щих участках записи. Если приближенные значения достаточно 
близки к истинным, то процесс сходится, несмотря на помехи. Если 
же параметры членения выбраны неудачно, то оценки начального 
приближения грубы, и процесс переработки описания расходится. 
В программе, реализующей описанный алгоритм, организовано 
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полуадаптивное членение. Адаптивное, так Как точки членения 
записи автоматически управляются поведением сигнала в начале 
и конце записи, а полуадаптивное, так как пороги, зависящие от 
уровня помех, вводятся как отдельные данные. Процесс оптими- 
зации сходится за 3—9 циклов. Модель сигнала строится по фор- 
муле / (х) = а ехр (—В2) | о, ехр (—В55х) - С. В начале ра- 
боты программы вычисляются приближенные значения парамет- 
ров компонент. Приближенное значение постоянной компоненты 
определяется по формуле 
7 т, 
с=— У 68, 


Р 
х=%—р-|-1 


где р = 20 — 30. 


Приближенная величина интенсивности быстрой экспоненты 
принимается равной первому, максимальному отсчету сигнала 
оу = 9;. Постоянная времени быстрой экспоненты оценивается 
по формуле 

п—М—Г, п—М—Г 


В = 2) (5 хл ва ++, (5х — В х+г,) 21 (5х к ът), 
где Д = 2-4; = да. | 


Определяется граница участка доминирования быстрой экс- 
поненты тв. Это число отсчетов, за которое интенсивность быстрой 
компоненты уменьшается в Кв раз. Затем выделяется участок, на 
котором доминирует медленная экспонента. Для этого сглажен- 
ный сигнал 5 (х), полученный усреднением значений исходного 
описания по З соседним отсчетам, сравнивается с оценкой постоян- 
ной компоненты С. Конец участка медленной экспоненты хм оп- 
ределяется из условия 5,, = КмС 


Величины Кв и Ку зависят от помех. Па участке записи от 
Ів до хм вычисляется постоянная времени медленной экспоненты 


хм—2 хХмМ—9 
В» = № Их+10х+9 У УхУх-, 
х=хХр х=хВв 


где у (2) = 9 (2) — С. 

Затем определяется приближенная величина интенсивности 
медленной экспоненты при 2 = хв: 

А» == ом © Хр (— В: (тв — 1) ДЕ) — С. 
Начальная интенсивность медленной экспоненты вычисляется по 
формуле 

0 = Аз/ехр (— В (хв — 1) Лх). 


По полученным оценкам параметров формируется модель сиг- 
нала Л (х) и осуществляется итеративное уточнение значений па- 
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Рис. 1. Графики сигнала и аппроксимирующей функции в полулогарифми- 
ческом масштабе 


І — сигнал 5 (х); ІІ — аппроксимирующая функция Ё (х) 


раметров по методу «анализа через синтез». Оптимизация прово- 
дится по квадратичному критерию по отдельности на участке до- 
минирования каждой компоненты. Для быстрой, медленной и 
постоянной компонент соответственно: 


В ХМ 
Ов= № (8. — Е. Ом= № (8. — Р), 


х=1 Х—Х В 


= М 


Для каждой пары значений интенсивности и постоянной вре- 
мени из набора возможных значений генерируется модель сигнала 
Р (х) и вычисляется показатель качества. Рассматриваемые пара- 
метры принимают значения, соответствующие минимуму показа- 
теля качества. 

В программе используется процедура выравнивания масшта- 
бов функций 5 и /. Для этого в формулу вычисления функции Ё 
вводится нормирующий множитель Л: Р (2) = Л (о, ехр (—В,2) + 
Ад оз ехр (— рәх) -- С). Коэффициент А варьируется в пределах 

0,5 —— 1,5, и для каждого значения вычисляется показатель ка- 
чества 


Оо = 


ХУ) 5х — М Р 
—1 


х=1 


Величины 0, о и С умножаются на НОВИН Л, соответствую- 
щий минимуму 
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Ошибка аппроксимации вычисляется по формуле 


п, 

8 == Ру Па (5. -- 1) — 19(Р,, У- 1). 

В каждом цикле переработки описания использовался следую- 
щий порядок оптимизации показателей качества: 0,0в0,0мО,00. 

На рис. 1 приводятся графики исходного сигнала и его моде- 
ли, полученной в результате процесса переработки описания. 
Параметры модели сигнала: о; = 2598; ехр (—В.А <) = 0,844; 
Оа = 22,265 ехр (ВА) == 0.97; Сеат. 

Функции 5 (2) и Ё (2) изображены в полулогарифмическом 
масштабе. 


Рис. 2. Изменение ошибки & 
аппроксимации 8 для различ- 
ных порядков оптимизации 40 
частных показателей качества 


І — 9,=0в=0о=0м=0=06; 
ІІ — 9м=0о=0 в=00=00=00; 
№ — номер цикла 20 


Было проведено сравнение различных порядков оптимизации 
частных показателей качества. Конечные результаты переработки 
описания почти одинаковы, но на промежуточных этапах лучшие 
результаты получаются, когда вначале уточняются параметры 
быстрой экспоненты. На рис. 2 представлено изменение ошибки 
аппроксимации для различных порядков оптимизации. 

Разработанный алгоритм предполагается применить для фор- 
мантного анализа речевых сигналов. 
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М. 3. Гробман, В. И. Тумаркив 


Выделение скрытых периодичностей 
и формантный анализ речи 


Динамические характеристики речевого тракта могут быть 
определены с помощью параметров экспоненциальных функций, 
которые описывают переходные и установившиеся процессы в 
нем. Измерению этих параметров должен предшествовать выбор 
модели анализируемого процесса, согласно которой выбирается 
алгоритм измерительной процедуры. Несоответствие между про- 
цессом и приписанной ему моделью может привести к значитель- 
ным погрешностям. 

По акустической теории речеобразования [1] наиболее адек- 
ватным физической стороне процесса является описание вокали- 
зованных участков речи экспоненциальными функциями с комп- 
лексными амплитудами и частотами. На каждый импульс голосо- 
вых связок речеобразующий тракт откликается совокупностью за- 
тухающих колебаний. Частота каждого колебания соответствует 
резонансной (формантной) частоте артикуляционного аппарата. 
Скорость затухания определяется добротностью резонанса. Та- 
ким образом, на интервалах времени, когда голосовые связки 
сомкнуты, речевой сигнал для вокализованных звуков можно 
представить в следующем виде: 


м 
у (Е) = 2 А;ехр(— ал) соѕ (0; -- Ф;), (1) 


где А;, @0;, фу; — соответственно амплитуда, коэффициент затуха- 
ния и фаза }-й форманты. При этом в общем случае о; не кратны 
друг другу. 

Отыскание этих величин представляет собой задачу, обобщаю- 
щую определение характеристик скрытых периодических про- 
цессов без затухания (периодичностей). Следует отметить, что вы- 
явление скрытых периодичностей [2], т. е. распознавание спект- 
ральной структуры процессов по результатам их непосредствен- 
ных измерений, отлично от разложения функции в ряд Фурье, 
при котором она считается периодической с периодом, равным 
интервалу наблюдений. Исследователь, как правило, не может 
достаточно полно связать интервал наблюдения с анализируемым 
процессом, и поэтому Фурье-анализ не позволяет достаточно точ- · 
но изучить процесс. 

Действительно, при таком анализе речевого сигнала форман- 
ты проявляются в виде спектральных максимумов, которые могут 
сливаться в один вследствие близости формантных частот и зату- 
хающего характера колебаний [3]. 

В методах вскрытия периодичностей периоды не навязывают- 
ся заранее, а определяются в процессе самого исследования. Од- 
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нако применение этих методов для анализа речевого сигнала свя- 
зано с рядом затруднений. Интервал наблюдения в данном случае 
определяется периодом свободных колебаний в речевом тракте 
(голосовые связки при этом сомкнуты), который для высоких го- 
лосов может составить время меньше минимального возможного 
периода колебаний первой форманты. Более того. На периоде 
основного тона могут наблюдаться всплески дополнительных ко- 
лебаний, вызванные «дребезгом» голосовых связок. В силу этого 
интервал анализа должен составлять время не более 2—3 мс [4]. 
Способы выявления скрытых периодичностей, достаточно полно 
рассмотренные в [2], не «работают» на таких коротких интервалах 
времени. 

В данной работе приводится описание процедуры вычисления 
формантных параметров речи, в основу которой положена идея 
разложения функции в ряд экспоненциальных составляющих [4]. 

Выражение (1) можно преобразовать в экспоненциальный ряд 


м 
А; а 
у( = у 5-е ' [ехр( (ол -- Ф;)) + ехр (— (я + Ф;))1 = 
== | 
Ц — 
= 2 [В;ехр (#(— а; -- іо;)) -- Вуехр (#(— 0; — 10/))], (2) 
Р 
где В; = 5-е і. 

Пусть значения функции у ({) заданы в моменты времени {,, 
іо А, ..., 1 + рћ и равны уо, у, .. ·, Ур. Введение обозначе- 
НИЙ 

93-1 = 5%; = В; ехр (10 (— 0; -- іо;)), (8) 

Е оса) 

2211 = 22; = ехр (Й (— 0; +- іо;)) (4) 
позволяет, подставляя в (2) значения ух (К = 0,1, ...,р), получить 
следующую систему уравнений относительно неизвестных о и 2: 

2 

у, = У 8}. (5) 

= 


Представляя все 2; в виде корней полинома степени 2 с дей- 
ствительными коэффициентами 


2—1 
р) Г 
2 М -- Ў 0312) — 0, (6) 
ј=0 
можно путем несложных преобразований системы (5) получить 
систему линейных уравнений относительно 61, 0, ..., 2м: 
2 
р} Ута = — УтязМаль т = — 1,0,1,...,р— 2№ — 1. (7) 
1=1 
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Очевидно, что количество точек, в которых задается функция 
у (2), должно удовлетворять условию р > 4 № 1. 

Система (7) решается методом наименьших квадратов *, после 
чего находятся корни полинома (6). Частоты о; и декременты 
о; находятся из (4) по формулам 


4 Тт 2931 
—— аго 60°, если Вед». є 0 
— л/2р, если Ве; у = 0, 
Т : 
0) = — р | 2541 |, (ТЕЕ о дае 


Приведенные соотношения, где из каждой пары комплексно- 
сопряженных корней нечетный номер имеет тот, у которого 
Тт 2 >> 0, справедливы при условии А < 1/2РГ шах. Для нахожде- 
ния начальных амплитуд и фаз вводятся обозначения 


993-1 Е Соз —- Со; 7 — 1 2, оо „М, (9) 


К Т. 

Учитывая, что 5,1291 1:5 2329; = 2Ңе (5,;_12231), и подставляя 

в (5) преобразования (4) и (9), получаем систему линейных урав- 
нений 


м 
ук = 2 У ехр (— Газ) [Сь-1 соѕ (Ко) — Су эт (о), 


1—1 
са ааа В (10) 
Из решения этой системы методом наименьших квадратов находят- 
ся все С; (1 = 1,2,..., 2№), откуда с учетом (3) и (9) 
бәј 
— ®Ль - ат е—— , если С; >> 0, Сл 0, 
93-1 
— — Ло, воли Сог >09, Сы = 0, 
Ф; = в (11) 
д— 0,10 -- агофо а — ‚ если С; <0, С. =0, 
271—1 
иар. Е 
9 кеч ©; 0, если 727 < Й 93-1 — У, 
2 2 
д. _2И ба +6 Оо, ‚ №) 
и ехр (— 9; 0) 


Описанная процедура была реализована с помощью програм- 
мы на языке АЛГОЛ-60 и отлажена на ЦВМ М-222. Блок-схема 
алгоритма приведена ниже. 


1 Матрица системы линейных уравнений, получающаяся в результате пре- 
образования системы (7) по методу наименьших квадратов, совпадает с 
автокорреляционной матрицей, к которой приводит метод линейного пред- 
пераа использование его для описания речевого сигнала предложено 
В $ 


88 


Ввод: 
чиело формант М, 
количество отсчетов 


р” 
сигнал 2[0, р – 1] 


| 
М1: = 2М№ 
М: = МІ + 1 
№: = Р + М1 

| 

| 


с[1, 1]: = ув +) — 2] 
1 = 1,2, ..., №, 
ў =1,9, ..., № 


| 
| 


Сі, М]: == 
= М-Н — 1] 
= 1,2, ..., № 


| 
| 


А[4,)]: = 
№2 
= У си, й: 
3 
4—12, ..., М 
40... М 


| 
| 


сп 
Решение системы 
линейных уравне- 
НИЙ 


——_ 


Нет 


СП А 
Вычисление 
корней полинома 


| 


— 0 
—0 
| 
ВЕ] < 0 |. 
Да | &=44+2 |+ — 


кору]: = ВИ] 
КОР[7 + 1]: = ВИ] 


——^ 


Вычисление о П 


и а; по (8) 

] 
Ва -1, 23 —– 1]: = 
= ехр(4а соз [іо №] 
4= 0,1, ..., р— 1 
= 10, М 


Блок-схема алгоритма 


Ща 


ві + 12: = 


—— = —ехр(іа;һ]. 


зто. 


Фа 03. гь М 
== 4,9... М 


| 
| 


Ар, Л: = 
р 
= ви, 4-80, 7 


$ =1,2, ..., № 
ук 1.8. чу М 
| 
| 
А[}, М]: =0 
== 10, со. И 
| 
| 
СП 
Решение 
системы 
линейных 
уравнений 
| 
| 
Вычисление 
А; и Ф; по (11) 
| 
у 


Вывод на печать 


С — матрица системы линейных уравнений для нахождения частот и декрементов зату- 
хания; НВ — матрица системы линейных уравнений для нахождения амплитуд и фаз; 
В — массив коэффициентов полинома; А — матрица, в которую преобразуются Си В 
по методу наименьших квадратов; КОР — массив корней полинома 


Был проведен эксперимент на речевом материале. Параметры 
формант вычислялись на интервалах свободных колебаний, со- 


ставляющих 2—3 мс. Полученные результаты подтвердили работо- 
способность процедуры. 
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Элементы формавтного анализатора 


В настоящее время не существует устройств, которые могли 
бы измерять временные траектории формантных параметров — 
частоты, полосы, амплитуды и фазы формант в реальном масшта- 
бе времени. В США предпринимаются попытки создания специа- 
лизированных устройств определения коэффициентов линейного 
предсказания, которые могут быть пересчитаны в формантные 
параметры [1]. Эти устройства пока сложны и дороги. Сложность 
измерения формантных параметров определяется сложностью и 
вариабильностью речевого сигнала, а подчас и неопределенностью 
самого понятия формант, поэтому техническая реализация точ- 
ного формантного анализа, вообще говоря, имеет проблематичные 
акценты. Существующие методы измерения формантных частот 
на основе спектрального разложения [2] и измерения плотности 
нулевых переходов в предварительно отфильтрованных формант- 
ных полосах [3] весьма неточны. Эти неточности связаны со сле- 
дующими свойствами речи: 

1. Формантные области перекрываются и лежат в пределах 
0,2—1 кгц для 1-й форманты; 0,5 — 2,8 кгц — для 2-й и 1,5— 
4 кгц — для 8-й. 

2. Формантные параметры могут быстро изменяться. Так, для 
сочетаний носовых звуков с гласными существенные изменения 
происходят на одном-двух периодах основного тона, т. е. 
примерно в течение 10 ме. 


З. Речевой процесс для вокализованных звуков на одном пе- 
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риоде основного тона имеет две фазы, определяемые разомкнуты- 
ми и сомкнутыми связками. Формантные параметры более точно 
определяются при сомкнутых связках, когда происходят свобод- 
ные колебания, определяемые параметрами речевого тракта. 

4. Частота основного тона и частота 1-й форманты могут быть 
весьма близки. Для женских голосов у некоторых звуков (напри- 
мер, для «и») частота основного тона может даже быть выше час- 
тоты 1-й форманты. 

о. Амплитуды формант быстро уменьшаются с ростом номера 
форманты. Так, амплитуды 3 и 4-й формант для ряда звуков и дик- 
торов могут быть соизмеримы с шумами придыхания, ревербера- 
ции, акустическими шумами помещения, шумами квантования 
и схемными шумами. 

Достаточно простая техническая реализация анализатора 
формантных параметров может быть достигнута при измерении 
в предварительно выделенных формантных областях. Можно от- 
метить три основных направления увеличения точности измере- 
ния в предварительно выделенных формантных областях [4]: 
А. Построение фильтров с короткой импульсной реакцией, разде- 
ляющих формантные колебания. Б. Измерение формантных пара- 
метров на фазе сомкнутых связок, вызывающее необходимость 
построения обнаружителя моментов смыкания связок по рече- 
вому сигналу. В. Разработка метода измерения формантных па- 
раметров на коротком временнбм интервале (2—3 мс), следующим 
за моментом смыкания связок. 

А. О разделении формантных колебаний. Как отмечалось 
выше, области формантных частот перекрываются. Кроме того 
в процессе образования речи имеют место динамические измене- 
ния формант, по [5] максимальная скорость изменения частоты 
2-й форманты достигает 15 гц/мс. Все это приводит к тому, что 
формантные фильтры должны либо подстраиваться под траекто- 
рию движения частот формант, либо должен производиться авто- 
выбор нескольких формантных фильтров в системе большого чис- 
ла перекрывающихся фильтров. Независимо от выбранного метода 
импульсная реакция формантных фильтров должна быть короткой, 
поскольку в дальнейшем предусматривается организация измере- 
ний синхронно с основным тоном. С другой стороны, важно иметь 
хорошие разделяющие свойства фильтров, особенно в случае от- 
деления высших формант от низших, для которого имеется небла- 
гоприятное соотношение амплитуд формант. 

Формирование фильтра с крутыми срезами при минимальной 
длительности импульсной характеристики представляет сложную 
проблему теории цепей. При аналоговых методах обычно создают 
фильтры с колоколообразной формой частотной характеристики 
_[6] или рассчитывают заданный вид временной характеристики 

при помощи линии задержки с отводами. В обоих случаях трудно 
добиться малого коэффициента передачи в полосе непропускания 
фильтра. 
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Ниже описывается экспериментальный способ построения 
фильтра с малым коэффициентом передачи в полосе непропуска- 
ния и короткой импульсной реакцией фильтра. Предварительно 
рассчитывается и изготавливается высокоселективный п-звенный 
полосовой фильтр. Для любой избирательной системы сущест- 
вует известное соотношение неопределенности Л ОЛЇ == соп. 

Импульсная реакция реального п-звенного фильтра (н.ч. или 
в.ч.) состоит из нарастающей части и спадающей части, опреде- 


Рие. 1 
0,6 10 14 8 = 22 2,6 Р, мц 


ляемой в основном законом е“ ѕіп оі. Здесь о — декремент 
затухания, связанный с потерями в фильтре и нагрузке, а ® — 
круговая частота колебательного процесса, определяемая часто- 
тами срезов фильтра. Спадающие части импульсной реакции мо- 
гут быть убраны с помощью режекторов комплексных частот, 
включаемых последовательно с полосовым фильтром и обладаю- 
щих функциями нулевой реакции на этих спадах. При этом дли- 
тельность импульсной реакции ЛЁ существенно сокращается, 
а срез Лю — увеличивается, так что частотная характеристика 
полосового фильтра приобретает куполообразную форму. Эта 
форма частотной характеристики в полосе пропускания близка 
к форме ряда оптимальных спектральных окон, построенных на 
основе функций с двойной ортогональностью [7]. В полосе непро- 
пускания свойства фильтра определяются расчетными для поло- 
сового фильтра значениями. На рис. 1 показаны частотные и 
импульсные характеристики 9-звенного полосового фильтра, рассчи- 
танного на выделение 2-й форманты. / — характеристики фильтра 
без режекторов, 2 — с режекторами, настроенными на устра- 
нение спадающих частей импульсной реакции для нижнего и верх- 
него срезов фильтра (временные характеристики скопированы 
с фотографии). Как видно, импульсная реакция ЛЇ для скорректи- 
рованного фильтра уменьшается в несколько раз. Эксперименты 
показали, что Л? == 2,5 М, где + и Ъ — нижняя и верхняя 
частоты срезов фильтра. 
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Режекторные фильтры делаются настраиваемыми активными 
на ВС-элементах или пассивными на /,С-элементах [8]. Настрой- 
ка производится по импульсной реакции фильтра регулировкой 
частоты и декремента затухания двух режекторов до получения 
максимально узкой импульсной реакции. 

Б. Обнаружение моментов смыкания голосовых связок. На 
основе описанного формантного фильтра была разработана схема 
обнаружителя моментов смыкания голосовых связок. Идея ра- 
боты схемы заключается в выделении формантного колебания 
фильтром, амплитудном детектировании этого колебания и фор- 
мировании импульсов, связанных с максимумом амплитуды фор- 
манты. Как известно [8, 9], речь на вокализованных участках 
можно представить в первом приближении суммой равномерно 
затухающих синусоид — формантных колебаний. Смыкание свя- 
зок вызывает амплитудный всплеск формантного колебания. Если 
хорошо отфильтровать соседние формантные колебания, то момен-. 
ты всплеска амплитуд и будут указывать на моменты смыкания 
связок. 

Проведенные исследования показали, что наиболее подходя- 
щей областью для выделения амплитудных всплесков является 
область 3-й форманты. Большинство вокализованных звуков 
имеет в этой области достаточно большую амплитуду форманты, 
а относительная высокочастотность колебания позволяет пост- 
роить простой детектор формантной огибающей с малой постоян- 
ной времени, что важно для определения моментов смыкания 
при высоких женских голосах. Наконец, важным преимуществом 
схемы является возможность ее работы в спектре телефонного 
канала. 

Блок-схема обнаружителя моментов смыкания связок проста 
и состоит из последовательно включенных полосового фильтра, 
режекторов на нижнюю и верхнюю частоты срезов фильтра, 
АРУ — автоматической регулировки усиления, детектора и фор- 
мирователя импульсов смыкания. Формантный фильтр был выпол- 
нен на диапазон частот 1,8—4 кгц. Принципиально важной частью 
схемы является АРУ. Объясняется это тем, что уровень 3-й фор- 
манты для разных звуков и разных людей может меняться очень 
сильно — до 60 дб. Поэтому для нормальной работы детектора 
глубина регулировки в разработанной схеме составляет величину 
около 70 дб. При таких изменениях сигнала на входе АРУ сигнал 
на выходе изменяется не более чем на 10 дб. АРУ выполнена на 
двух ступенях с прямой регулировкой усиления. Детектор АРУ 
и детектор схемы обнаружителя импульсов смыкания Д выполне- 
ны на 4-фазной‘схеме. Это позволяет сделать постоянную времени 
сглаживающего фильтра детектора весьма малой — порядка 2 — 
З ме, что обеспечивает четкое выделение огибающей на периоде 
основного тона. Сглаженные в фильтре детектора сигналы оги- 
бающей имеют быстро нарастающий передний’ фронт и плавно 
спадающий задний фронт. Формирователь создает импульсы в от- 
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20 мс вет на быстрые изменения 

ВЕРА АЕ ПЕТ огибающей, которые с некото- 

Г рой задержкой отмечают мо- 
ра Г\ А /\ СИ ғ менты смыкания связок. На- 

у м у 0. М личие глубокой АРУ вызыва- 

ет срабатывание схемы не 

только на тональных звуках, 

но и на шумных. Срабаты- 

вание на тональных звуках 

7 происходит периодически, а 

4 = ~ на шумных — со случайной 

фазой (периодом). Схема обна- 

ружения моментов смыкания 

связок, дополненная схемой 

выделения тона-шума, мо- 

Рис. 2 жет быть положена в основу 

устройства измерения часто- 

ты основного тона (интоно- 

графа). На рис. 2 дан пример работы обнаружителя моментов 

смыкания на звуке «м» на отрезке длиной 20 мс (1— осциллограм- 

ма звука, 2 — огибающая формантного колебания после АРУ, 
5 — импульсы на выходе формирователя). 

В. Синхронное измерение формантных частот. Когда формант- 
ные колебания выделены и обнаружены моменты смыкания свя- 
зок, возникает задача измерения формантных параметров во вре- 
меннбм окне, выбранном на наиболее благоприятном участке ко- 
лебания при наиболее благоприятной длительности временного 
окна. Рядом экспериментов [4, 8] установлено, что временнбе 
окно должно быть выбрано в пределах 2—5 мс с небольшим сме- 
щением от максимального всплеска амплитуды формантного ко- 
лебания примерно так, как это изображено на рис. 3. | 

Измерение частоты колебаний в таких условиях представляет 
существенные трудности. В известной японской системе синхрон- 
ное измерение частоты формант производится по плотности нуле- 
вых переходов [3]. При этом измерение частоты 1-й форманты про- 
изводится посредством отсчета времени на одном полупериоде 
формантного колебания, а измерение частоты 2-й форманты — 
отсчетом времени на семи полупериодах колебания. Такая систе- 
ма измерения требует разработки сложной и точной синхрониза- 
ции с импульсами основного тона, наличия на колебании по край- 
ней мере двух нулевых точек, обладает слабой защищенностью 
от помех, характерной для методов измерения частоты по нулевым 
пересечениям. 

Более перспективным в этих условиях является измерение 
частоты на основе частотно-амплитудного метода, когда исследуе- 
мый частотно-модулированный сигнал превращается в амплитуд- 
но-модулированный, огибающая которого измеряется. Существует 
много разновидностей этого метода измерения частоты, мы оста- 
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новились на методе, описанном в [10], служащем для измерения 
частоты гармонического колебания. 

Идея метода сводится к расщеплению формантного колебания 
на два колебания, отношение амплитуд которых пропорциональ- 
но измеряемой частоте. Принцип работы методы измерения фор- 
мантной частоты представлен на рис. 4. Измеряемый сигнал Озх 
через входной блок Вх поступает на дифференцирующую Диф 


Рис. 3 


и интегрирующую Инт ВС-цепочки. Выходы с этих цепей посту- 
пают на два одинаковых канала, состоящих из детекторов Д и уп- 
равляемых интеграторов УЙ. Интеграторы управляются от спе- 
циальной цепи, сбрасывая накопленные значения сигналов с при- 
ходом импульсов смыкания связок и работая затем в течение вре- 
мени, определяемом длительностью выбранного окна. Отношение 


Рис. 4 


ку Цепь управления 


сигналов в верхней и нижней частях схемы, пропорциональное 
измеряемой частоте, образуется в делителе напряжений Дел. 

Рассмотрим погрешности измерения, образующиеся при по- 
даче на вход схемы равномерно затухающего гармонического на- 
пряжения. 

Пусть Х (0) = ;/0, = е7 соѕ оі. Коэффициенты передачи 
дифференцирующей и интегрирующей АС-цепей имеют соответ- 
Сив вид Кд (р) = р/(р + а) и Ки (р) = ар + а), тде а = 


При подаче сигнала Х (1 на входы этих цепей получим сле- 
дующие сигналы на выходах: 


И (0) = а е7%1с05 (ф (о) — атоо о/а) -- ДУ (7), 


ыы — -&ї = 
У" (7 Ее е7%1с08 ф (0) — ДУ (2). 


При этомлУ (0) = а (а — о)е “(а — о?) + 02], ф (о) = оѓ — 
= :агсіс [0/(а — а)]. 
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Анализ величины ЛУ (1) показал, что при наиболее тяжелых 
условиях измерения (для наиболее низкой частоты первой фор- 
манты и малой добротности) она может быть сделана падающей 
до пренебрежимо малой величины за время, на порядок меньшее 
длительности наиболее короткого периода основного тона. 

Аргументы функций Ух (1 и Ў, (1) отличаются на угол № = 
= агс іс (о/о). Для больших отношений о/о; этот относительный 
сдвиг фаз равен 90°. Для наиболее тяжелых условий измерения 
частоты 1-й форманты при добротности О = 3 относительный сдвиг 
по фазе оказывается равным 81°, т. е. достаточно близким к 90°. 
При компенсации этого сдвига фазы во входном каскаде отноше- 
ние напряжений на выходах дифференцирующей и интегрирующей 
цепей определяется величиной п = И а? +- о/а. 

При измерении в наиболее тяжелом случае для 1-й форманты 
при О = З погрешность измерения частоты оказывается менее 1%. 

Как видно из схемы рис. 4, измерение частоты производится 
не на амплитудных значениях напряжений, а на усредненных. 
Переход к средним значениям напряжений имеет два преимущест- 
ва. Во-первых, упрощается схема делителя Дел, поскольку он 
работает в этом случае от униполярных напряжений. Во-вторых, 
использование интеграторов при вычислении усредненных напря- 
жений уменьшает влияние случайных помех и остатков других 
формант на точность измерения. Схема была реализована на полу- 
проводниках и показала точность измерения частоты в диапазоне 


1-й форманты порядка 5% при длительности временного окна 
2 ме. 
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В. П. Савельев 


Устройство выделения и ввода значений 
частоты основного тона голоса в ЭВМ 


Для автоматического выделения ударных гласных при распо- 
знавании слитной речи в системах понимания речи и членения с их 
помощью непрерывного речевого сигнала на слова, а также для 
получения другой просодической информации необходимы из- 
мерения частоты основного тона голоса. Устройство выделения 
частоты основного тона (ОТ) Р, должно быть достаточно простым 
и допускать совместную работу с цепями выделения других приз- 
наков в устройствах выделения и ввода речевых признаков (УРВ) 
в ЭВМ [1—3]. В связи с последним требованием устройство выде- 
ления и ввода частоты основного тона должно иметь цифровой вы- 
ход с передачей отсчетов со значениями ОТ каждые 20 мс, а также 
должно управляться блоком управления выделением признаков 
и блоком синхронизации и связи с ЭВМ, имеющимися в УРВ. 

Существует несколько способов выделения Го, дающих раз- 
личные результаты по точности. В данном случае требования 
к точности выделения Ё, менее строгие, чем, например, в воко- 
дерной технике, так как имеется возможность программной кор- 
рекции отдельных ошибок. От автокорреляционного способа вы- 
деления Р, пришлось отказаться ввиду его громоздкости. Методы 
частотной и амплитудной фильтрации частоты ОТ, описанные 
во многих работах (см., например, [4—7]), приблизительно равно- 
ценны, но первый несколько сложнее (необходимость подбора 
фазовых характеристик фильтров, значительное количество оши- 
бок при значениях Ро, близких к граничным частотам фильтров). 

Выделение Ё, было осуществлено по известной схеме: фильтра- 
ция нижних частот — нормализация максимальных пиковых зна- 
чений — детектирование. Принято считать, что детектирование 
(сигнал без подчеркивания нижних частот) должно быть шести- 
кратным. В нашем случае используется двойное детектирование 
и дифференцирование. Как правило, указанная схема амплитуд- 
ной селекции частоты ОТ реализуется на двух каналах [8], обра- 
батывающих положительную и отрицательную полуволны рече- 
вого сигнала. Поскольку знак асимметрии речевого потока в за- 
висимости от произнесения различными дикторами практически 
не меняется, была использована одноканальная схема выделения 


Го (фаза цепи: «микрофон — устройство выделения ВР» постоян- 
на), но при определенных ограничениях. Так, диапазон выделяе- 
мых частот ОТ был ограничен частотами 90—400 гц, что, согласно 
статистическим исследованиям, справедливо в 95% случаев. 
Кроме того частоты ОТ ниже 90 гц не могли быть введены в ЭВМ 
при выбранном способе ввода периода ОТ (см. ниже), значения 
которого вводятся в ЭВМ через ЛІ = 20 мс, так как внутри этого 
интервала должно быть не менее двух периодов ОТ. 
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М — микрофон; ФНЧ — фильтр нижних частот; АРУ — блок автоматического ре- 
гулирования уровня; ПД — пиковый детектор; Дифф — дифференцирующая цепь; 
ОВ — одновибратор; ПУ — пороговое устройство; И — блок логического умножения; 


Т — статический триггер; К — ключ; Ген — генератор частоты заполнения периода 
ОТ; Ся — счетчик; БУС — блок управления и синхронизации с ЭВМ 


Указанное выше ограничение рабочего диапазона выделяе- 
мых частот ОТ позволило усилить низкочастотное подчеркивание 
речевого сигнала. Спад частотной характеристики фильтра ниж- 
них частот (ФНЧ) вместо обычных 6 дб на октаву доведен до 12 дб. 
Воздушная струя при произнесении взрывных звуков (особенно 
для «п» и «т») вызывает в таком фильтре мощный нестационарный 
процесс, что часто приводит к ошибкам измерения первых перио- 
дов ОТ последующих гласных звуков. Поэтому перед микрофоном 
должен стоять экран (диаметром около 2 см), конструктивно (объ- 
единенный с ограничителем расстояния до губ диктора (около 6 см). 
Такая близость объясняется необходимостью увеличения отноше- 
ния сигнал/шум в условиях работы УРВ в машинных залах ЭВМ. 
Так как громкость произнесения должна находиться в определен- 
ных пределах, то после фильтрации диапазон изменения рече- 
вого сигнала составляет не более 40 дб. 

Для нормализации уровня после фильтрации на выходе ФНЧ 
используется АРУ с прямой регулировкой. Для мгновенного комп- 
рессирования время заряда емкости на выходе пикового детектора 
АРУ выбрано достаточно малым. Скорость же разряда должна 
превышать максимальную скорость изменения огибающей сигна- 
ла на участках гласных, но быть не менее некоторой величины, 
иначе мешающие колебания между максимальными пиковыми зна- 
чениями сигнала будут относительно увеличиваться, что несколь- 
ко скомпенсирует низкочастотное подчеркивание сигнала, произ- 
веденное в фильтре нижних частот. Экспериментальным путем 
постоянная времени фильтра детектора АРУ была установлена 
равной 10 мс. 

Е: Следующий элемент устройства выделения частоты ОТ — схе- 
ма выделения пиковых значений сигнала имеет меньшую, чем 
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обычно, постоянную времени фильтра, но детектор работает с от- 
сечкой около 30%. Это позволяет более эффективно срезать мешаю- 
щие выбросы на сигнале, приводящие к ложным отсчетам Ро, 
при меньших колебаниях выходного сигнала пикового детектора 
в рабочем диапазоне. Колебания выходного сигнала связаны 
с тем, что изменения огибающей пиковых значений сигнала на 
выходе АРУ увеличиваются с частотой и тем сильнее, чем больше 
постоянная времени разряда конденсатора на выходе пикового 
детектора. Это затрудняет установку порога реле. 

На рисунке дана блок-схема устройства выделения и ввода 
в ЭВМ «Минск-22» частоты основного тона. Фактически выде- 
ляется период основного тона. На выходе устройства период 
ОТ представлен некоторым числом импульсов частоты заполне- 
ния этого периода ({ = 7,8 гц). Эта частота выбрана, исходя из 
следующего. С одной стороны, при низшей Ро ее значение не долж- 
‚ но занимать более 7 двоичных разрядов в памяти ЭВМ, с другой — 
при высоких значениях ГР. не должны теряться существенные для 
выделения ударения, изменения КР. на верхнем пределе 400 гц. 
На интервале 20 мс измеряется только первый период ОТ после 
предыдущего отсчета (блоки И и Г). 

Предварительные эксперименты показали, что, несмотря на 
отсутствие второго канала, надежность выделения частоты ос- 
новного тона составляет не менее 92%. Если отбросить первый, 
часто неверный отсчет, то надежность выделения частоты ОТ повы- 
шается до 97%. Значительную часть ошибок (удвоение РЁ.) дают 
звуки «0» и «у» (при некоторых тональностях), но они редко встре- 
чаются на двух и более отсчетах подряд и поэтому могут корректи- 
роваться программно. Значительный процент ошибок получается 
при произнесении «а». Это связано с двугорбостью максимальной 
на периоде ОТ полуволны и не может быть устранено пиковым 
выделителем описанного типа даже при многократной обра- 
ботке. Здесь эффективнее применение двухканальной схемы 
выделения ГЁ. В нашем случае используется простая схема за- 
прещения второго, ложного, импульса, отстоящего не далее 2 мс, 
что соответствует верхней граничной частоте рабочего диапазона 
Г. = 900 гц. 

Импульсы ОТ подаются на ключ К через схему И; на входы 
которой подаются импульсы основного тона от, потенциал ка- 
нала шумности Ё,, потенциал Ёог наиболее чувствительного амп- 
литудного дискриминатора схемы выделения и кодирования ин- 
тенсивности речевого сигнала, используемого в УРВ для сегмен- 
тации потока, и импульсы Ё; от схемы запрещения со временем 
2—2,5 мс. Условие появления сигнала, свидетельствующего о на- 
личии основного тона, представляется в следующем виде: 


Е = Нок /\ Нор Вр КВ. 


В таблице приведен пример выделения частоты ОТ во фразе: 
«Это жирные сазаны ушли под палубу». №, — число импульсов 
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заполнения периода ОТ в восьмеричной системе; Е’ с» — усред- 
ненное значение К, на протяжении звонкого звука; К, — частота 
основного тона. Удвоенные значения периода ОТ обнаружива- 
лись программой и уменьшались в 2 раза. Резкие уменьшения 
значений №,» на одном отсчете заменялись полусуммой предыду- 
щего и последующего отсчетов. 

В приведенном примере заметно повышение Л, на ударных 
гласных в слогах «жи», «за» и «ли», а также понижение Г, в конце 
фразы. Последний ударный гласный «а» может быть выделен как 
имеющий наибольшее значение Л, в окончании фразы. Выделение 
и обработка значений /, выполняются в реальном масштабе вре- 
мени с помощью ЭВМ «Минск-22». 
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В. Б. Максимов 


Использование параллакса движения 
для восстановления пространственной ситуации 
без нахождения соответственных точек 
на последовательных изображениях сцены 


1. Введение. Обычно считается, что использование параллак- 
са для’ определения третьей пространственной координаты по 
двум плоским проекциям объемного мира (различают биноку- 
лярный параллакс, когда сопоставляются изображения, получен- 
ные при помощи двух разнесенных в пространстве оптических 
систем, и параллакс движения, когда сопоставляются изображе- 
ния, получающиеся последовательно во времени с помощью одной 
оптической системы в процессе ее движения в пространстве) сво- 
дится к: 1) выделению некоторых особых точек на изображениях; 
2) нахождению соответствия между точками одного и другого 
изображения; после этого 3) простые тригонометрические расче- 
ты дают расстояния до каждой из этих точек в пространстве. 
К сожалению, этот метод не лишен недостатков. Так, заранее пред- 
полагается, что форма предметов или характерная раскраска их 
поверхности создает на изображении какие-либо особые точки. 
Далее, нахождение соответственных точек на двух изображениях 
оказывается довольно трудоемкой процедурой. И, наконец, он 
дает местоположение в пространстве только этих точек и ничего 
не говорит о других точках. Иными словами, такой метод вместо 
восстановления внешней пространственной ситуации позволяет 
только определять «дальность» изолированных. точек поверхности 
предметов. Желание же получить более подробную информацию 
о пространственной ситуации неизбежно приведет к увеличению 
перебора при поиске соответственных точек. В результате сцены, 
богатые особыми точками," становятся, не’под*силу вычислитель- 
ным машинам. | | 

В настоящей статье разбирается принципиально отличный под- 
ход. Использование непрерывности изменений изображения сце- 
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ны в процессе движения оптической системы в пространстве, 
а также переход к рассмотрению гладких поверхностей предме- 
тов и непрерывных и дифференцируемых функций яркости поз- 
волил найти аналитическое решение задачи, не требующее ни пер- 
вого этапа распознавания — выделения особых точек, ни второго 
этапа — нахождения соответственных точек на разных изобра- 
жениях. Вследствие этого метод позволяет вычислять расстояния 
практически до любой точки видимых поверхностей (а исключение 
составляют, в частности, именно те точки, где изображение имеет 
особенность — скачок яркости или ее производной и пр.). Естест- 
венно, предложенный метод встречается со специфическими 
трудностями и имеет свои ограничения. Поэтому окончательное 
решение задачи восстановления внешней пространственной ситуа- 
ции, по-видимому, нужно будет искать в виде некоторой комбина- 
ции этих двух методов. | 

2. Постановка задачи. Трехмерная сцена характеризуется, 
во-первых, формой и расположением объектов в пространстве 
и, во-вторых, распределением яркости по поверхностям этих пред- 
метов. Эти характеристики независимы в том смысле, что одна 
и та же по форме трехмерная сцена может быть по-разному раскра- 
шена и освещена, и наоборот, одинаковые оптические изображе- 
ния могут создаваться совершенно разными по форме сценами. 
При этом непосредственно может восприниматься только яркость 
точек поверхностей, на выходе же наша система должна давать 
первую характеристику сцены — объемную ситуацию. 

Сцену нам будет удобно представлять в сферических (поляр- 
ных) координатах, связанных с центром оптической системы. 
Пусть в некоторый момент времени видимая пространственная 
ситуация описывается расстоянием р (ф, 9) от центра оптической 
системы до видимой поверхности предмета в направлении (Ф, 9), 
а функция Е (ф, 9) характеризует яркость соответствующей точ- 
ки поверхности. Поскольку система движется в пространстве, 
ри Ё будут также меняться во времени. 

_ Итак, задача системы состоит в том, чтобы по яркости видимых 
точек пространства Ё (Ф, 9, № в каждый момент времени восста- 
новить их удаленности о (Ф, $9, 2). 

3. Упрощающие ограничения. Будем считать, что функция 
Е (Фф, 9, 2) является непосредственным входом системы. Иными 
словами, предполагается, что оптическая система не содержит 
фокусирующих элементов, а изображение сцены строится проек- 
тивным преобразованием (с бесконечно большой разрешающей 
способностью). 

Трехмерная сцена представляет собой совокупность непо- 
движных непрозрачных предметов в прозрачной среде. Предметы 
ограничены кусочно гладкими поверхностями. Яркость каждой 
поверхности — почти везде непрерывная и дифференцируемая 
по поверхности функция. Яркости точек поверхностей не зависят 
от угла зрения. 
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Для простоты будем считать, что скорость системы © постоян- 
на (причем направление 9 — 0 системы координат совпадает 
с направлением вектора скорости). Случай произвольного трех- 
мерного движения не вносит ничего принципиально нового — бо- 
лее громоздкое аналитическое решение для этого случая разобра- 
но нами в другой работе [1]. 

4. Аналитическое решение. В процессе движения оптической 
системы координаты каждой точки внешнего мира ведут себя 
так, что ф остается постоянным, а изменяются только ри 9. При 
этом угловая скорость движения изображения некоторой точки 
может быть вычислена (если в этой точке определены производ- 
ные от яркости) по формуле 


__ _дЕ/д 
2Е/9% ` 


С другой стороны, угловая скорость относительного движения 
точки определяется положением этой точки в пространстве и 
скоростью движения системы 0 = (0/0) ѕір 9. Отсюда выводится 
формула для определения расстояния до видимых точек поверх- 
ностей предметов по их изображению | 


р(Ф, 8,0) = — озт ё 20725. (1) 

5. О дискретной реализации. Как видно из формулы (1), ре- 
шение строится независимо для разных углов Ф, т. е. задачу 
восстановления трехмерной пространственной ситуации по дву- 
мерному ее изображению фактически можно разбить на совокуп- 
ность задач, в каждой из которых восстанавливается двумерная 
сцена (в координатах р, 9) по ее одномерному изображению. Та- 
кое сокращение размерности удобно как с точки зрения машин- 
ного моделирования, так и для графического представления ре- 
зультатов. 

Необходимость дифференцирования изображения по Фи по # 
создает серьезгые трудности при реализации описанного способа 
вычисления расстояния до произвольных точек внешнего мира. 
Известно, каких ухищрений требует даже более простое «выделе- 
ние контуров» на изображении, полученном с помощью телеви- 
зионной камеры [2]. Одна из трудностей состоит в том, что пред- 
ставление непрерывного и непрерывно меняющегося во времени 
входного изображения на дискретном растре в дискретные мо- 
менты времени требует замены производных в формуле (1) на ко- 
нечные разности. Другая, может быть, даже более серьезная труд- 
ность обусловлена высокой чувствительностью предложенного 
метода к шумам на изображении. 

Исследование всех этих вопросов, связанных © дискретной 
реализацией метода, естественно проводить не с помощью реаль- 
ной телевизионной аппаратуры, а с помощью генерирования изо- 
бражения сцены в вычислительной машине посредством специаль-. 
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Оптическая система я 


Рис. і. Пространственная ситуация (а) и ее изображение (сигналы датчиков) 
ша входе системы в момент времени і = 75 (6) | 


шой программы. Это позволит варьировать параметры (разрешаю- 
щую способность в пространстве и во времени, число градаций 
яркости и шумы на входе) и исследовать влияние каждого из них 
в отдельности. 

6. Машинное моделирование. Программа была написана на 
языке ЕМ для вычислительной машины МОГТ]1-20 и состояла 
из трех блоков. С помощью одного блока в машине создавался 
окружающий мир — сцена (задавались форма и взаимное распо- 
ложение предметов, а также яркости точек их поверхностей). 
Другой блок моделировал оптическую систему, формирующую 
изображение этого мира. Третий блок по этому изображению 
вычислял расстояния До видимых точек сцены. 

Двумерная сцена (рис. 1, а) представляла собой горизонталь- 
ную прямую, на которой лежала окружность (эту сцену можно 
считать одним из плоских сечений некоторой трехмерной сцены, 
например шара, лежащего на плоскости). 

Распределение яркости на предметах сцены было следующим. 
Яркость точек прямой слева от точки С на рис. 1, а линейно воз- 
растала, в точке С претерпевала скачок, а затем (справа от точ- 
ки С) убывала также по линейному закону. Яркость точек окруж- 
ности изменялась как некоторая нелинейная функция дуги, для 
всех видимых точек окружности монотонно возрастая слева на- 
право. 

Оптическая система, которая двигалась (с заданной скоростью 5) 
над этой сценой на некотором расстоянии от прямой (рис. 1, а), 
создавала одномерное изображение этой сцены на дискретной 
цепочке датчиков — «Фотоэлементов». Последняя содержала 64 дат- 
чика, в сумме охватывающих поле зрения в 96° (рис. 1, а). Угол 
между оптическими осями ®; соседних датчиков равнялся 
9; — 9; =0 = 1,5°. Ширина диаграммы направленности каждого 
из датчиков составляла также 1,5°. Выходным сигналом датчика 
Е: является интегральная яркость точек окружающего мира, 
нроектирующихся в момент времени ѓ на і-й датчик (і =0, 1, ... 
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63) в пределах этого угла. Пример изображения сцены, фор- 
мируемого оптической системой (в один из моментов времени) пред- 
ставлен на рис. 1, 6. 


РД А 
Вычисление расстояния 0, где і = 1, ..., 63, до точки сцены, 
видимой в направлении %0;, производилось по формуле 
і і 1-1 1-1 
ИЕ: б... Жн кВ о) 
На Вам а. 
Е; + Е: — Еі 
7. Результаты. Программа последовательно для каждого мо- 
мента времени вычисляла расстояния до всех видимых точек 


сцены. Вычисленное программой расстояние б; откладывалось 
вдоль направления 9; в полярных координатах с центром, соот- 
ветствующим положению системы в момент времени #. На рис. 2 
приведены отдельные кадры из построенной таким образом по- 
следовательности, начиная с того момента ({ = 25), когда край 
окружности появляется в поле зрения. 

В этой сцене практически везде расстояния до точек окружаю- 
щего мира были вычислены с ошибками менее 0,5%. Причем ос- 
новной источник ошибок — это неточное генерирование самого 
изображения: использование приближенных формул для интегра- 
лов, низкая точность вычисления функций 1а 2, зшх, соѕ 2 стан- 
дартными процедурами языка ТЕМ и прочее, а совсем не замена 
«точной» формулы (1) на приближениую — (2). В местах изобра- 
жения, где имеется скачок или излом яркости на изображении 
(что может соответствовать изменению яркости гладкой поверх- 
ности — точка С на рис. 1 — или границе, где один видимый 
предмет заслоняет другой — точки А и В на рис. 1, 6), в двух 
(иногда в трех) соседних точках расстояние определяется неверно 
(нередко вычисленное б; оказывается даже отрицательным). 

8. Влияние шума. Численное дифференцирование очень чувст- 
вительно к точности измерения и ко всякого рода шумам. На 
рис. 3, а показано, к чему приводит квантование яркости изобра- 
жения на 296 градаций. Сравнение с тем же моментом времени 

= 75 на рис. 2 (где яркость вычислялась с машинной точностью) 
показывает, что такая довольно высокая для приемного устройства 
точность измерения яркости для этого метода оказывается еще 
недостаточной. 

Недостаток информации, поступающей в каждый момент вре- 
мени на вход, можно’.компенсировать, используя априорные све- 
дения о внешнем мире. Так, предложения о гладкости и стацио- 
нарности позволяют применять обычный метод борьбы с шумами — 
усреднение отсчетов (или вычисление сглаженных производ- 
ных по нескольким точкам). Если яркость изображения доста- 
точно плавно меняется по пространству и во времени, то можно 
соответствующим образом усреднять показания соседних датчи- 
ков. Рис. З иллюстрирует эффект усреднения отдельно по прост- 
ранству (6) и по времени (в). Это условие в действительности озна- 
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Рис. 3. Влияние шума квантования 


Для сравнения тонкой линией изображено 
реальное расположение предметов в сцене. 
Формула (2) применялась к изображениям: 


— — —ї 
а — Е; = Е;, 6 — Е; = (Е; 1 + Е; 
Е, і М 1-1 1-9 
+ Е} 41)/3, в — Е; = (Е; + Е; + Е; )/3, 
—{ 
где Е. —исходное изображение, квантован- 
ное на 256 уровней яркости 


чает, что в таком мире переход к формуле в конечных разностях 
в принципе допустим при значительно более грубых шагах (АЛ; 
и ЛФ). Иными словами, метод усреднения отсчетов опирается на 
некоторую избыточность приемного устройства, которое при низ- 
кой точности измерения имеет (для данной сцены) чрезмерно вы- 
сокую разрешающую способность. Такой размен разрешающей 
способности на контрастную чувствительность будет бесполезен 
в тех местах изображения, где усредняемая величина быстро 
изменяется от точки к точке. | 

9. Внутренняя модель внешней пространственной ситуации. 
В действительности, в разобранном ранее методе слабо использу- 
ется априорная информация о неподвижности мира — в каждый 
момент времени внешняя объемная ситуация восстанавливается 
фактически независимо. В то же время если в некоторый момент 
і точно подсчитаны 0’, то по изображению Ё! и р' можно пред- 
сказать практически все изображение (за исключением изображе- 
ния тех участков поверхности предметов, которые вначале нахо- 
дились вне поля зрения или были заслонены другими предметами) 
на любой момент будущего. Эту особенность можно использовать 
для повышения качества изображения. Поскольку каждая точка 
находится в поле зрения системы продолжительное время, имеется 
принципиальная возможность усреднять во времени отсчеты 
яркости отдельно для каждой видимой точки поверхности. Для 
этого нужно только, чтобы соответствующий накопитель переме- 
щался по системе датчиков с той же угловой скоростью, с которой 
движется изображение этой точки (угловая скорость, как уже 
говорилось, может быть вычислена по самому изображению). 

Итак, предлагается создавать в системе непрерывно улучша- 
ющуюся модель внешнего мира, которая для каждой точки сцены 
в каждый момент времени с большей или меньшей точностью вос- 
станавливает: 1) ее яркость (усредняя отсчеты датчиков, на кото- 
рые последовательно проектируется данная точка сцены) и 
2) скорость перемещения ее изображения по системе датчиков (ко- 
торая и используется для предсказания положения изображения 
этой точки в следующий момент). В первые моменты после того, 
как некоторый участок поверхности появится в поле зрения, это 
восстановление будет неточным. Однако с течением времени оно 
будет улучшаться. В результате, при не слишком больших ско- 
ростях движения система сумеет «разглядеть» (восстановить форму 
и яркость поверхности) каждый из предметов, появляющихся 
в поле зрения. Можно надеяться, что использование такой модели 
позволит существенно снизить требования к точности работы уст- 
ройства ввода изображения, при меньшем числе априорных огра- 
ничений на воспринимаемый мир. 

10. Обсуждение. Решение в конечных разностях, полученное 
в разделах б и 7, моделирует не только параллакс движения, но 
и бинокулярный параллакс. Следует только считать, что показа- 
ния датчиков Ё и А-1 с разными верхними индексами в формуле 
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(2) получены с помощью двух разнесенных оптических систем, 
а о задает расстояние между ними. Естественно, и в этом случае 
метод применим только к таким сценам, где производная яркости 
по поверхности мало меняется на расстоянии р. Поскольку в би- 
нокулярном случае мы имеем всего два изображения внешнего 
мира, использование внутренней модели внешней пространст- 
венной ситуации для накопления информации теряет смысл, 
и единственный способ повышения точности — увеличение конт- 
растной чувствительности самих датчиков, которое можно осу- 
ществлять, например, путем усреднения отсчетов, как это описа- 
но в разделе 8. 

До сих пор при разработке систем искусственного зрительного 
восприятия осповное внимание уделялось «упрощенному» вариан- 
ту — полиэдральным сценам (составленным из многогранников). 
Примечательно, что предложенный здесь метод оказывается прак- 
тически неприменимым к полиэдральным сценам. Действительно, 
с одной стороны, он не дает решения для тех точек, где производ- 
ная яркости по поверхности обращается в пуль. Такая неопре- 
ленность решения может возникать на довольно больших участках 
поверхности, в частности на однородно освещенных (далеким то- 
чечным источником) и однородно окрашенных плоских гранях. 
С другой стороны, метод неприменим там, где производные не 
определены — в точках изображения, куда проектируются ребра 
многогранников и границы предметов. Только в области тени, 
где возможны значительные вариации освещения даже на плоских 
поверхностях (в результате взаимных рефлексов и взаимного зате- 
нения скученных предметов 18]), можно еще надеяться на успех. 

Приверженность исследователей к полиэдральным сценам 
обусловлена, по-видимому, не столько тем, что такой мир является 
типичным, сколько надеждой на то, что результаты, полученные 
здесь, можно будет легко обобщить на случай криволинейных 
поверхностей (представляя их с большей или меньшей точностью 
в виде многогранников). Однако, как правило, в этих работах ос- 
новным объектом анализа являются контура на изображении (соот- 
ветствующие ребрам, границам предметов, границам тени и т. п.), 
а разрабатываемые при этом методы носят довольно громоздкий 
логический (переборный) характер [4], поэтому не ясно, как их 
можно естественно обобщить на случай произвольных сцен (когда 
число граней стремится к бесконечности, но при этом исчезают 
ребра между ними). Не удивительно поэтому, что в уже предпри- 
нятых попытках интерпретации трехмерных сцен, содержащих 
тела криволинейной формы, исследователи вынуждены были раз- 
вивать независимый подход [5—8]. Переход к гладким поверхно- 
стям (отказ от рассмотрения ребер) в ряде случаев оказывается 
более продуктивным упрощением, поскольку позволяет исполь- 
зовать аналитический аппарат. 
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Проект диагносцирующей системы 


1. Введение. Анализ диагностических врачебных ошибок пока- 
зывает, что наиболее частыми их причинами являются не «упу- 
шенные» врачом, но фактически имевшие место симптомы заболе- 
вания, а трудности логической оценки и интерпретации выявлен- 
ных симптомов при малом их числе. Это позволяет сформулировать 
в качестве центральной задачи при автоматизации диагностиче- 
ского процесса не выявление симптоматики, что является сегодня 
делом врача, а логическую обработку симптоматики [1—4]. Далее 
будет рассматриваться методика построения логической програм- 
мы распознавания острых хирургических заболеваний органов 
брюшной полости. 

2. Характеристика класса заболеваний. Острые хирургичес- 
кие заболевания органов брюшной полости характеризуются обыч- 
но внезапным началом, быстротечностью и прогрессирующим раз- 
витием, создающим непосредственную угрозу жизни больного. 
Значительная часть симптомов этих заболеваний встречается и при 
различных других заболеваниях, не относящихся к этому классу, 
что усугубляет возможность и опасность диагностической ошибки, 
поскольку при большей части острых заболеваний органов брюш- 
ной полости единственным методом лечения является неотложное 
хирургическое вмешательство, а при сходных по симптоматике 
заболеваниях, но относящихся к другим классам, обычно изле- 
чивающихся консервативными методами, операция может быть 
противопоказанной и даже приводить к катастрофическим послед- 
СТВИЯм. 
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Отнесение заболевания к выделенному классу производится 
при наличии любого из следующих четырех признаков: 1) жалобы 
на боль в животе; 2) болезненность при ощупывании живота; 
3) установленный факт или подозрение на травму живота; 4) подо- 
зрение на внутреннее кровотечение. Эти данные, полученные вра- 
чом, являются основанием для формализации последующей диа- 
гностической процедуры. 

3. Стратегический принцип диагностики. Из характеристики 
этих заболеваний видно, что практической целью их распознава- 
ния является своевременный выбор оптимального метода лечения, 
т. е. стратегии, от чего непосредственно зависит судьба больного. 
Целей академической диагностики мы здесь касаться не будем. 
Можно выделить следующие шесть основных стратегий хирурга: 
1) показана срочная операция; 2) надо уточнить диагноз; 3) опе- 
рация является напрасной; 4) операция противопоказана; 5) кон- 
сервативное лечение, при неэффективности его — операция в бли- 
жайшие часы; б) предпочтительна отсроченная или плановая опе- 
рация. В соответствии с таким разбиением и перечнем стратегий 
хирурга целесообразен и стратегический принцип определения 
степени точности диагноза. Так, если число основных форм забо- 
леваний, входящих в данный класс и распознаваемых программой, 
не превышет 50, то фактическое число в той или иной мере детали- 
зированных диагнозов, в том числе и динамических состояний 
больного, каждое из которых соответствует одной из шести ос- 
новных стратегий хирурга, увеличивается более чем до 300. 

4. Проявления заболеваний. Организм располагает ограни- 
ченным перечнем специфических реакций на «внутренние полом- 
ки», что определяет сходство проявления различных по содержа- 
нию патологических процессов и оказывается причиной объектив- 
ных трудностей их распознавания. Таким образом, отдельно взя- 
тый симптом не может служить разумным основанием для уста- 
новления диагноза болезни. 

Применительно к цели данной работы под симптомами можно 
понимать выход за некие пороги измеримых параметров или их 
совокупностей, характеризующих конкретное состояние организ- 
ма, причем пороги эти могут изменяться. 

В процессе обследования больного врач мысленно отсеивает 
сотни известных ему симптомов, которых он у больного не видит, 
и десятки, которые он признает несущественными, оставляя для 
обоснования диагноза лишь 9—7 из выявленных симптомов, кото- 
рые в данном сочетании оказываются наиболее содержательными. 
Моделируя процесс диагностики, не следует исключать те симп- 
томы, которые могут не понадобиться в отдельном случае, но, 
бесспорно, могут потребоваться в любых мыслимых ситуациях. 
Таких симптомов для диагностики всех заболеваний выделенного 
класса более 1000. Они могут быть определенным образом клас- 
сифицированы, так как имеют различную содержательную зна- 
чимость и смысл. , 
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5. Формализация диагноза. Синдромы.’ Любой патологический 
процесс в организме проявляет себя разнообразной симптоматикой, 
поскольку каждому органу свойственно множество физиологи- 
ческих функций, нарушения которых приводят к возникновению 
множества симптомов. Это дает основания рассматривать не про- 
стой перечень признаков болезни, а объединения содержательных 
симптомов, свидетельствующих о том или ином явлении, называе- 
мом синдромом. Такое определение синдрома здесь представляется 
более целесообразным, чем принятое в работах [1, 2, 5]. 

В соответствии с изложенным следует различать три группы 
синдромов: 15 патогенетических, 30 дисфункциональных и 37 
локальных. 

Симптомы, входящие в перечисленные группы, считаются ос- 
новными. Кроме того, выделяется группа дополнительных симп- 
томов, которые содержательно имеют менее общий характер, и по- 
тому они соотнесены непосредственно с конкретными заболевания- 
ми. Часть этих симптомов выражает динамические или количест- 
венные параметры патологического процесса (нарастание, зати- 
хание; слабо, умеренно, резко выраженный основной симптом 
И т. №). 

Сам по себе симптом — понятие стабильное. Он может либо 
наблюдаться, либо отсутствовать. Напротив, синдром — понятие 
динамическое. Синдромы внутри каждой из трех групи могут пере- 
ходить один в другой, отражая тем самым вероятные пути развития 
патологического процесса во времени, распространение его по 
различным отделам брюшной полости и вовлечение в него все бо- 
лее широкого круга органов и систем. При этом в случае возник- 
новения нового синдрома предшествующий ему может сохранять- 
ся, но может и исчезать. Данные предшествовавшего наблюдения 
за больным и сообщаемые им о себе сведения дают основания для 
распознавания синдрома, отсутствующего в данный момент, но 
имевшего место в начальном периоде заболевания. Это дает воз- 
можность осуществить «ретроспективный поиск», имеющий су- 
щественный содержательный смысл, а также прогнозировать ве- 
роятные пути развития заболевания и возможные осложнения. 
Перечень таких «переходов» дополняет описание каждого синд- 
рома. 

«Эталонный образ болезни» описывается перечнем синдромов 
из каждой группы —«синдромным портретом». Для ряда распозна- 
ваемых состояний в этот образ включается несколько дополнитель- 
ных симптомов.“ Естественное развитие заболевания приводит 
к возникновению переходов одних состояний в другие. Если при 
этом происходит возникновение синдрома или синдромов, не сов- 
падающих с синдромным портретом заболевания, переход в кото- 
рое данного состояния является возможным, то это свидетельству- 
ет не о реализующемся переходе заболевания, при котором может 
еще и не быть полного синдромного портрета, а о возникновении 
какой-то сопутствующей патологии, другого заболевания. Подоб- 
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ная структура системы распознавания дает возможность диаг- 
носцирования одновременно существующих у больного несколь- 
ких заболеваний [1]. Перечень возможных переходов дополняет 
описание каждого распознаваемого заболевания — его «эталон- 
ный образ». | 

В связи с недостаточной информацией описанный этап исполь- 
зования детерминистской логики может не довести распознавание 
до единственного диагноза. Основанием для разделения в таком 
случае могут служить некоторые индивидуальные характеристики 
больного, позволяющие считать априорную вероятность возник- 
новения у него некоторых заболеваний (предрасположенность) 
весьма большой. К таким характеристикам, в частности, относят- 
ся обстоятельства, предшествовавшие развитию данного заболева- 
ния, перенесенные ранее заболевания и операции, сопутствующая 
патология, возраст, пол, конституция и т. п. [6, 7]. 

6. Описание. Принцип описания синдрома показан на сле- 
дующем примере. Пусть А — синдром скрытого острого воспале- 
ния. Перечень симптомов, характеризующих данный синдром, 
может быть описан так: 1) пульсирующая боль; 2) постоянная 
боль; 3) повышение температуры тела; 4) гиперлейкоцитоз; 
2) сдвиг лейкоцитарной формулы крови влево. 

1-й и 2-й — взаимоисключающие симптомы, а 2, 3, й и 5-й мо- 
гут иметь место не только в случае А, но и при трех других синд- 
ромах, описание которых мы опускаем. Для распознавания А мы 
пользуемся сочетаниями названных симптомов: 1 —- А, 2 | 3 = 


+ А, 3 405-4, 2 П 5 – А. Таким образом, 
{ИОВ ПАЙ 51020805} А. 


Остальные возможные сочетания симптомов не дают клиничес- 
ких оснований для распознавания данного синдрома. 

Аналогичным образом, но значительно проще описывается 
синдромный портрет заболевания — эталонный его образ. В тех 
случаях, когда это целесообразно по смыслу, каждому распозна- 
ваемому состоянию ставятся в соответствие те признаки, которые 
увеличивают у данного больного возможность данного заболева- 
ния, а также не зависящие от индивидуальных особенностей боль- 
ного сравнительные частоты различных заболеваний. 

7. Оптимальное решение и управление системой. Выше ука- 
зывалось, что в рамках решаемой задачи установление диагноза 
не является самоцелью. Вместе с тем представляется желатель- 
ным построение такой системы, которая в наибольшей мере соот- 
ветствовала бы логике врачебного мышления. Речь идет о том, 
что диагноз устанавливается для выбора оптимального метода 
лечения больного и что, принимая решение о диагнозе, особенно 
о вероятностном диагнозе при недостаточной информации, врач 
всегда учитывает возможные последствия своего решения [1]. 
Поэтому «центр управления системой» должен производить со- 
поставление предварительных диагнозов по их стратегической 
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принадлежности. В случае диагностической альтернативы, но сов- 
падения стратегий хирурга для каждого из предполагаемых забо- 
леваний в соответствии с целью распознавания дальнейшая диаг- 
ностическая процедура может быть прекращена. Продолжение ее 
возможно по специальному запросу врача. 

При несовпадающих стратегиях процедура диагностики про- 
должается путем соответствующих конкретных запросов системы 
о недостающей симптоматике. Запрашиваются, естественно, те 
симптомы, которые могут дополнить имеющиеся уже симптомы 
для формирования эталонного образа синдрома или болезни. 

Окончанием процедуры является либо однозначный диагноз, 
либо однозначная стратегия. При переходе к следующему этапу — 
вероятностному, что также может определяться «управляющим 
центром», решение о диагнозе будет только альтернативным. 
Здесь в большинстве случаев, когда одной из стратегий является 
хирургическое вмешательство, для выбора оптимального решения 
необходимо ввести в систему факторы операционного риска. Это 
самостоятельная программа, на которой мы не останавливаемся. 

Таким образом, предполагаемая система должна состоять из 
трех программ — диагностики, оценки величины операционного 
риска и выбора оптимального решения. Врач должен иметь доступ 
к каждому из этапов работы системы по всем программам. Этот 
доступ реализуется как возможность получения решений в любом 
виде и как возможность введения информации на каждом из эта- 
пов в виде симптомов, синдромов, диагнозов, величины риска 
и прогноза. В то же время система на любом из этапов должна 
иметь возможность в соответствии с каждой программой запра- 
шивать у врача недостающую ей дополнительную информацию. 
Таким образом, ам врача с системой должна строится в режи- 
ме диалога. 
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В. С. Файн 
Вариативная модель в опознавании образов 


В данной модели рассматриваются два процесса, с которыми 
связана всякая задача опознавания: процесс порождения класси- 
фицируемого ансамбля объектов и процесс собственно классифи- 
кации. Оба эти процесса удобно обсудить сначала на примере 
конкретной задачи. С этой целью рассмотрим задачу, например, 
опознавания рукописных знаков. 

1. Процесс порождения ансамбля. Процесс порождения неко- 
торого знака состоит в проведении линии, связной или состоящей 
из нескольких частей и так или иначе изогнутой. Некоторый 
вариант проведения такой линии, например самый простой — 
близкий к прямолинейному, можно рассматривать как «первич- 
ный объект» или «праобъект». Так, на начальном этапе обучения 
письму детей учат именно проведению линии (писанию «палочек»), 
а потом уже — изменению вида этой линии. 

Варьируя тем или иным способом праобъект, некоторое челове- 
ческое сообщество, объединенное общей письменностью, форми- 
рует набор объектов — алфавит используемых в данной письмен- 
ности конфигураций знаков. Указанное сообщество выступает 
при этом в роли «генератора» или «источника» объектов; результат 
его деятельности проявляется в виде набора образцовых («эта- 
лонных») начертаний знаков — прописей. 

Способы варьирования праобъекта источником объектов чрез- 
вычайно разнообразны, но не вполне произвольны: имеется целая 
система очевидных физических, биологических, целевых и иных 
ограничений (система «5-ограничений»), таких, как ограничения, 
вносимые динамикой движения руки с пером, удобные габариты 
знаков, приемлемое давление пера на бумагу и др. Такие ограни- 
чения делают разные вариации праобъекта в различной степени 
вероятными, что позволяет обсуждать их в терминах распределе- 
ния вероятностей на множестве вариаций. В рамках этого распре- 
деления выбор вариаций праобъекта, включаемых в данный ал- 
фавит, является, по-видимому, случайным с тем только дополни- 
тельным требованием, чтобы между знаками были не слишком 
малые отличия. Эта случайность выбора проявляется в данном 
примере в том, что биологически не отличающиеся, но разобщен- 
ные в прошлом этнически сообщества создали разные алфавиты 
(например, романский, грузинский, армянский, арабский и т. д.). 
Подобное разнообразие выборов позволяет заключить, что приро- 
да и вид праобъекта являются характеристическими данными для 
типа источника объектов: обсуждаемый источник, в частности, 
может порождать, наряду со знаками письма, самые разнооб- 
разные виды линейчатых рисунков; при этом с разными алфа- 
витами рисунков могут быть связаны ротор задачи 
опознавания. 
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Таким образом, данному праобъекту (и данному типу источ- 
ника) соответствует некоторый класс задач опознавания. Ввод 
той или иной системы о-ограничений и, в том числе, целевых ог- 
раничений определяет выбор из этого класса соответствующего 
подкласса задач («%-подкласса» или «5-класса») — в нашем примере 
подкласса задач опознавания рукописных знаков всевозможных 
алфавитов. Отбор же конкретного алфавита эталонных знаков 
и вместе с этим порождение конкретной задачи из числа задач 
данного ©-класса осуществляется, как мы видели, случайным 
образом. 

Рассмотрение некоторого алфавита объектов как результата 
варьирования (при тех или иных ограничениях) праобъекта поз- 
воляет, между прочим, заметить, что общность свойств этих объек- 
тов ничуть не менее характерна для задачи опознавания, чем 
их отличия, обычно больше всего интересующие разработчиков. 
Именно эта общность свойств, определяемая системой наложен- 
ных ограничений, обусловливает применимость для всех объектов 
данного алфавита общей системы описания (например, некоторой 
совокупности признаков), только и дающей возможность сопоста- 
вительного изучения этих объектов. 

Введем для ряда употреблявшихся выше понятий формальные 
обозначения. Зафиксируем некоторый праобъект А и некоторый 
оператор 7 (4; х., ..., х,), описывающий способ варьирования 
праобъекта; в практически решавшейся задаче в роли 7 выступали 
кусочные непрерывпо-групповые преобразования плоскости. 2; — 
независимые параметры этого варьирования (его «степени свобо- 
ды»). Примем для простоты, что каждый из них может принимать 
конечное множество значений. Множество всех возможных соче- 
таний значений параметров обозначим {Х}; оно, очевидно, нахо- 
дится во взаимно-однозначном соответствии с множеством {А} 
всех возможных результатов А варьирования праобъекта, которые 
мы будем называть его вариациями. Наложение некоторой сис- 
темы %-ограниченӣй равносильно, как было сказано, соотнесению 
множеству {Х} распределения вероятностей Р (Х). В частности, 
наложение 5-ограничений физически проявляется в том, что неко- 
торые линии из {А} оказываются невозможными, а некоторые 
другие имеют ничтожно малую вероятность появления. Иначе 
говоря, данная система %-ограничений выделяет из множества 
вариаций {А} «практически возможное» подмножество {А}5 
(соответственно {Х}5 С {Х}). Множеству {А}5 соответствует 
определенный класс задач опознавания — ©-класс. 

Зафиксируем некоторое конечное целое число № > 0 и, произ- 
ведя № случайных выборов, выберем из {4А}5 подмножество 
{А}зм из М вариаций; этому подмножеству соответствует сово- 
купность {Х}зх С {Х)ѕ из М случайных комбинаций по п чи- 
чел Х;. {А}зм образует алфавит объектов уже для конкретной 
задачи из %-класса. В этой задаче объекты из {А}5м могут появ- 
ляться с вероятностями Р (Х;), Х; Е {Х}5м. Эти объекты были 
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ранее названы образцовыми или эталонными. Для краткости 
будем в дальнейшем называть их эталонами. 

Продолжим рассмотрение примера. Люди, обучавшиеся пись- 
му по эталонным начертаниям знаков, в дальнейшем их практи- 
чески не воспроизводят. Индивидуальные особенности приводят 
к появлению разных почерков; случайные обстоятельства, сопут- 
ствующие написанию каждого знака, создают вариативность изоб- 
ражений этого знака даже внутри одного почерка. Таким образом, 
каждое реальное начертание знака оказывается измененным по 
отношению к эталону. Множество всех возможных начертаний, 
относящихся к эталону А; Є {А)ѕу, обозначим {Б};. Множество 
сочетаний значений параметров 2;, соответствующих всем В из 
{Б};, обозначим {У}; С {Х}. Вероятность возникновения начер- 
тания В, когда пишущий имел в виду ј-й знак, описывается, оче- 
видно, распределением Р (В/А;) или, что то же, распределением 
Р (Ү/Х;), где У == В. Объединение множеств {ВБ}; для всех А; 
из {А}зм образует тот ансамбль {В} всех рукописных знаков 
данного языка, который является входным массивом для всякого 
человека, читающего произвольный рукописный текст на этом 
языке, или для опознающего автомата аналогичного назначения. 
Соответственно, в терминах параметров 2;, 


М 
(0)= 0 095 


Мы рассмотрели, таким образом, часть модели, относящуюся 
к процессу порождения ансамбля {В} (или {У}). Суммируем 
результаты этого рассмотрения. | 

1. Для всех объектов, фигурирующих в процессе на всех его 
уровнях, существует единая система описания в виде совокупно- 
стей из п величин (п разрядных «слов») Х или У. 

2. Ансамбль {У} порождается двухступенчатым варьирова- 
нием некоего исходного объекта (праобъекта), причем на каждой 
ступени после варьирования включается рандомизированный ме- 
ханизм выбора. 

З. Варьирование на 1-й ступени порождает множество {Х} 
всех возможных вариаций праобъекта. Из этого множества случай- 
ным образом, в соответствии с распределением Р (Х), выбирается 
М вариаций, образующих алфавит объектов (эталонов, образов) 
{Х}зм в данной задаче. Если попытаться поставить в соответствие 
обсуждаемому процессу условную блок-схему, то 1-я ступень 
может быть представлена блоком, который можно назвать вариа- 
тором праобъекта или вариатором источника эталонов, выдавае- 
мых с вероятностями Р (Х;). 

4. Варьированию на 2-й ступени подвергаются только те № ва- 
риаций праобъекта, которые были получены по рандомизирован- 
ному правилу и зафиксированы на 1-й ступени. Если на вход 2-й 
ступени поступает случайно выбранный из {Х}5м (в соответствии 
с распределением Р (Х;)) эталон Х;, то на ее выходе появляется 


116 


объект У, получаемый случайным выбором из множества {У};, 
в соответствии с распределением Р (У/Х;). 2-й ступени в блок- 
схеме соответствует блок, который можно назвать «вариатором 
эталонов»; в памяти этого блока содержатся распределения 
РУХ д. 

5. Рассмотренная часть модели состоит, таким образом, из 
вариаторов, в совокупности порождающих весь ансамбль возмож- 
ных начертаний знаков. Это позволяет назвать указанную часть 
модели вариаторной. 

2. Процесс классификации в ансамбле. Если первая часть мо- 
дели описывала процесс порождения изменчивости объекта, то 
смысл второй части — противоположен. Здесь задача состоит 
в подавлении изменчивости, в сужении множества возможных 
входных (для этой части) объектов до единственного выходного 
объекта, индекс которого, если не произошло ошибки, должен 
совпасть с индексом 7-го эталона, выброшенного вариатором 
праобъекта и затем «искаженного» вариатором эталонов. 

Итак, исходным объектом в данном случае является некоторое 
начертание В Є {В}; ему соответствует описание УЕ\{У}. Это 
описание может быть порождено 7-м эталоном с вероятностью 
Р (Х,У). Поэтому для любого У мы должны в общем случае 
рассмотреть совокупность из № вероятностей Р (Х;/У), учитывая 
при этом априорные вероятности эталонов Р (Х;). 

Таким образом, о 2-й (собственно опознающей) части модели 
можно сказать следующее. 

1. Әта часть имеет двухступенчатую структуру, как и часть 
модели, относящаяся к порождению ансамбля {У}. 

2. Первая ступень осуществляет сужение входного ансамбля 
{У} до ансамбля эталонов {Х}зм, представленного в этой ступе- 
ни № числами Р (ХУ). 

Таким образом, 1-я ступень нейтрализует изменчивость, вно- 
симую вариатором эталонов, поэтому соответствующий блок 
в блок-схеме можно назвать девариатором эталонов. Для каждого 
У Е {У} этот блок вычисляет вероятности Р (Х,/Ү"). 

З. Вторая ступень сужает ансамбль эталонов { Х}ѕу до един- 
ственного эталона, представленного на ее выходе номером у. 
Эта ступень, таким образом, нейтрализует изменчивость, созда- 
ваемую источником эталонов, и символизирующий ее в блок- 
схеме блок может быть назван девариатором источника. 

4. В целом данная часть модели сужает весь исходный ан- 
самбль {У} вариаций праобъекта до некоторой единственной ва- 
риации и потому может быть названа девариаторной. 

3. Блок-схема модели в целом приведена на рисунке. Пункти- 
ром показаны блоки, связанные с изменчивостью, не относящейся 
к природе объекта, но иногда привносимой извне в практиче- 
ской ситуации. Разновидностью такой дополнительной измен- 
чивости может быть, например, шумообразное влияние шерохо- 
ватости бумаги в рассмотренном примере. В связи с этим пока- 
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занный пунктиром блок в вариаторной части модели обозначен 
для простоты как «шум», а соответствующий блок в девариатор- 
ной части как «фильтр шума». Пример с шумовыми блоками под- 
крепляет впечатление своеобразной зеркальной симметрии моде- 
ли (ее вариаторный и девариаторной частей). 

4. Примеры. Приведем примеры интерпретации в терминах 
вариативной модели еще нескольких популярных задач. 


Р(Х) Р(у/Х/) а | Ре Р(ҳ//ү) /=ЕРХИУ} 


Пейариатор |, п[Левариато 
эталонов КРК истинное 


УФУ} (Р(Х;/Ү?РЈ 


Распознавание речевых образов. Праобъектом А может здесь 
считаться некоторое фиксированное состояние какого-либо одно- 
го голосового тракта, гортани и возбуждающего воздушного 
потока, сохраняемое неизменным в течение некоторого интервала 
времени Т (равного длительности наиболее протяженного из рас- 
познаваемых образов, например самого длинного слова). Измене- 
ние состояния осуществляется путем сокращения мышц, управ- 
ляющих формой всех частей голосового тракта, состоянием го- 
лосовых связок и диафрагмой. Если обозначить степень сокраще- 
ния і-й мышцы в момент времени $ через х; (#), то оператор варьи- 
рования праобъекта 7 может быть записан в виде 7 (А; 2 (В), 
т, (3), 22а (Ни); 2-3 4 (1), 20 2, (0.,)), где параметр 
2; (к) — есть число, выражающее значение функции х; (0) 
в А-й котельниковский момент отсчета времени. Таким образом, 
общее число параметров оператора 7 равно | 


= 
П, == У т... 
4=1 


Придавая всем параметрам все возможные комбинации зна- 
чений, можно получить ансамбль {Х} и одновременно {А}. По- 
скольку вероятности различных состояний из {А} различны, 
с {4} (ис {Х}) связано распределение Р (Х). В случае задачи 
опознавания речевых образов распределение Р (Х) обусловлено 
$-ограничениями, выделяющими из всего множества возможных 
голосовых звуков (в том числе и криков, стонов, рычаний и т. д.) 
подмножество {А}5 речеподобных звуков. Множество {А}ѕу 
эталонов, выбранное из {А}, — есть словарь данного языка, 
используемый в данном сообществе или в данной системе «чело- 
век — автомат». Выбором словаря {А}ѕу из 5-класса задач рас- 
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познавания речеподобных образов выделяется конкретная задача. 

Для каждого из эталонных объектов А; Є {А}5у существует 

множество {В}; всевозможных вариаций произнесения этого объ- 

екта разными людьми и в разных обстоятельствах; с этим множест- 

вом связано распределение Р (В/А;) или Р (У/Х;). Таким обра- 

зом, ансамбль, с которым приходится столкнуться аудитору или 
М 


опознающему автомату, а именно {В} = (Ј {В}, есть в данном 
3=1 

примере совокупность всех возможных произнесений всех ЛМ 

объектов (например, слов) данного словаря. 

Автоматическая медицинская диагностика. Задача отличает- 
ся от предыдущей тем, что здесь классифицируемый объект (струк- 
тура и функции тех или иных внутренних органов и систем) не- 
посредственно не наблюдаем, поэтому адекватного описания его 
изменений, в том числе и патологических, в виде оператора 7, 
здесь построить нельзя. В связи с этим недоступными оказывают- 
ся и адекватные параметры такого оператора, и на практике в ка- 
честве параметров 1х; приходится применять результаты доступ- 
ных косвенных измерений и наблюдений. 

Таким ‘образом, содержательное обсуждение задачи оказывает- 
ся возможным не в терминах объектов, а лишь в терминах их 
описаний Х, У; задача как бы начинается сразу с описания. Боль- 
шая распространенность таких задач (медицинская и техничес- 
кая диагностика, геофизическое прогнозирование и т. д.), надо 
полагать, привела к тому, что во многих работах, относящихся 
к опознаванию вообще, строятся и обсуждаются модели, соответ- 
ствующие лишь второй, девариаторной части нашей модели; 
первая часть оказывается вне поля зрения. 

Рассмотрим применительно к подобной задаче вариативную 
модель. Наибольшее и наименьшее значения всякого параметра 
х;, наблюдавшиеся когда-либо на живых людях, вместе с оправ- 
давшейся на практике дискретизацией его значений позволяют 
формально воспроизвести ансамбль {Х} как множество всех ком- 
бинаций возможных значений всех п параметров 2;. Эти комбина- 
ции в общем случае имеют разные вероятности. В частности, сре- 
ди них могут быть и такие, при которых жизнедеятельность ор- 
ганизма невозможна (хотя каждый отдельный параметр и может 
принимать данное значение на живых людях). Такова в данном 
случае природа 5-ограничений, и с ними связано существование 
распределения Р (Х). 5-класс, отвечающий этим ограничениям, 
есть класс задач медицинской диагностики. В качестве описания 


Е праобъекта можно взять, например, типичную комбинацию зна- 
чений параметров для здорового человека. Выбор алфавита 
{ Х}ѕу определяется тем, между какими именно заболеваниями 
должно производиться различение; задание списка этих заболева- 
ний выделяет из %-класса конкретную задачу. 

В качестве собственно эталонов Х; из { Х}ѕу могут выбираться 
типичные комбинации значений параметров для каждого из № 
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рассматриваемых заболеваний. Если под общим названием забо- 
левания содержится несколько заметно отличающихся разновид- 
ностей, то в {Х}зм можно ввести эталоны для каждой из них. 
В данном примере вариатор источника моделирует отклонения от 
«здорового» состояния ко всевозможным типичным болезненным 
состояниям, а вариатор эталонов — индивидуальные отклонения 
от этих типичных состояний в соответствии с распределениями 
РАГА у). 

Недоступность объекта для непосредственного наблюдения 
в подобных задачах приводит, как отмечалось, к утрате важного 
конструктивного эффекта, доставляемого данной моделью, — 
возможности целенаправленного поиска адекватных параметров 
оператора 4. Это, однако, не сводит роль модели в таких задачах 
к чисто методологической: как будет ниже указано, принятие 
во внимание существования и природы множеств {Х}, {Х}5м 
и т. д. и соответствующих распределений позволяет получить 
важные оценки качества решения задачи, недостижимые в ином 
случае. 

Автоматическая портретная идентификация. Праобъектом 
А является в этой задаче какое-либо одно человеческое . лицо, на- 
пример типичное лицо для данной этнической группы или данной 
местности. В практически решавшейся задаче в роли оператора 
2 выступали топологические произвольно-нелинейные преобра- 
зования поверхности лица (в частности, шаговые взвешенно- 
групповые преобразования) — в трехмерном варианте и такие 
же преобразования плоскости изображения (фотографии) — 
в двумерном. В последнем случае, как и при распознавании руко- 
писных знаков, использовались также и кусочно-непрерывно- 
групповые преобразования. Практически такой оператор ( при 
варьировании его параметров 2; позволяет произвольным образом 
изменять как глобально, так и локально форму некоторой поверх- 
ности (в частности, поверхности лица) или форму плоского изо- 
бражения с сохранением неизменной топологии поверхности или 
плоскости. В частности, оператор может превращать и лицо од- 
ного человека в лицо другого, и именно этот вариант его исполь- 
зования образует реализацию вариатора источника. 5-ограниче- 
ния в данном случае выделяют те из преобразований праобъекта, 
которые приводят к «лицеобразным» поверхностям или изображе- 
ниям. С этим связан и вид распределения Р (А) или Р (Х). В ка- 
честве эталонного алфавита {А}ѕу выступает картотека, состав- 
ленная из фотографий лиц, подлежащих контролю в данной мест- 
ности; априори этот набор является, очевидно, случайным. 
Мимические, возрастные, болезненные изменения формы лица соот- 
ветствуют в нашей модели вариатору эталонов. Эти изменения 
описываются путем варьирования параметров качественно тех 
же преобразований, т. е. того же оператора 7. Возникающим 
при этом множествам {У}; соответствуют распределения вероят- 
ностей Р (Ү/Х;). Обычно на практике нет возможности изучить 
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для каждого из состоящих в картотеке лиц все возрастные, мими- 
ческие и прочие вариации; вместе с тем биологические факторы, 
обусловливающие подобные вариации (места прикрепления и син- 
нергии мышц, характер увядания с возрастом кожи и т. д.), 
у всех людей практически одинаковы. Поэтому распределения 
Р (У/Х;) обычно считаются для всех Х; из {Х}зм одинаковыми 
(точнее, отличающимися только первыми моментами). Заметим, 
что это явление встречается во многих задачах; оно характерно, 
в частности, и для задач распознавания типографских, машино- 
писных и в большой степени рукописных знаков. Одинаковость 
распределений Р (У/Х;) вносит упрощения в вычисление распре- 
делений Р (Х;/У) в девариаторной части модели. 

5. Обсуждение. Отметим три основных направления, продви- 
жению в которых может способствовать использование вариатив- 
ной модели. 

Первое направление связано с вводом в рассмотрение опера- 
тора 4 (Х 5 21, ..., №). Поскольку все члены ансамбля {В} счи- 
таются вариациями единственного объекта — праобъекта Х, по- 


стольку оператор 7 (Х ‚2. ..., 1) является описанием связей 
между этими вариациями, т. е. описанием связывающей их за- 
кономерности, а его свободные переменные 5; — параметрами, 
управляющими этой закономерностью. В задачах, где возможно 
непосредственное наблюдение объектов (как в большинстве при- 
веденных примеров), определение физической сущности оператора 
2, а затем и его формальной структуры не представляет принци- 
пиальной трудности. Но тогда автоматически оказывается ре- 
шенной одна из главных проблем в задачах опознавания — проб- 
лема выбора признаков; в качестве признаков, как было видно, 
выступают параметры оператора. В частности, именно благодаря 
вводу в рассмотрение вариативной модели и соответствующего 
оператора 4 удалось решить задачу автоматической портретной 
идентификации, до этого не поддававшуюся решению другими 
средствами. 


Второе направление связано с неодинаковым происхождением 
вариаторной и девариаторной частей модели. В самом деле, 
изменчивость объектов, моделируемая вариаторной частью, пред- 
ставляет собой объективный факт внешнего мира, своего рода 
явление природы; именно таков смысл подписи под блоками вариа- 
торов в схеме. Девариаторная же часть является моделью уст- 
ройства или алгоритма, представляющего собой плод сознатель- 
ной деятельности, направленной на подавление изменчивости. 
Этим обусловлена подпись под девариаторными блоками на ри- 
сунке. Природа выступает здесь, очевидно, как первичное, актив- 
ное начало, порождающее изменчивость; техническое же устрой- 
ство, как и имитируемый им воспринимающий аппарат живого 
существа, предназначено для парирования этой изменчивости, 
т. е. вынуждено играть пассивную, вторичную роль. 
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Методологический вывод из сказанного состоит в том, что изу- 
чение и описание изменчивости, т. е. ее математическое модели- 
рование в виде оператора 4, является центральным и, по-видимо- 
му, ключевым вопросом в теории опознавания образов. 

Конструктивный вывод состоит в том, что ниоткуда, вообще 
говоря, не следует, что изменчивость может быть только порожде- 
нием природы. Поскольку в решении задачи опознавания мы так 
или иначе должны конструировать ее модель 4, постольку мы мо- 
жем немедленно использовать эту модель для искусственного гене- 
рирования изменчивости. Так мы приходим к новой, отличающей- 
ся от опознания образов, области исследований — области целе- 
направленного генерирования изменчивости. Здесь имеется ряд 
практических задач, таких, например, как автоматизация дизай- 
нерских работ, автоматическое построение промежуточных фаз 
движения в мультипликации, автоматизация некоторых работ 
в криминалистике. Некоторые из этих задач в настоящее время 
успешно решены или решаются. 

Наконец, третье направление связано с создаваемой вариатив- 
ной моделью возможностью перейти посредством детерминистско- 
го оператора 4 от самих объектов к описаниям их вариаций в виде 
комбинаций из п чисел, между которыми существуют уже только 
вероятностные соотношения. Это позволяет ввести в рассмотре- 
ние множество всех таких комбинаций {Х} с распределением 
Р (Х) и изучать его в сопоставлении с множествами {Х}5м и {У} 
и соответствующими распределениями. Смысл перечисленных мно- 
жеств и существование связанных с ними вероятностных рас- 
пределений позволяет провести параллель между обсужден- 
ной выше модельной ситуацией и моделью передачи сооб- 
щений случайным п-разрядным кодом по каналу с шумами, со- 
держащейся в известной теореме Шеннона. Эта параллель ока- 
зывается настолько глубокой, что становится возможным при 
некоторых дополнительных ограничениях распространить ука- 
занную теорему Шеннона на задачи опознавания в их вариативной 
трактовке. Это распространение вместе с обсуждением некоторых 
вытекающих из него новых возможностей в опознавании образов 
составляет содержание отдельной публикации. 
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УДК 621.391 


0б одном классе задач прогнозирования. Гитис В. Г. Сб. «Распознавание образов. 
Теория и приложения». М., «Наука», 1977. 


Рассматриваются пути решения задач прогнозирования, в которых прогнозируемый 
показатель задается экспертом путем разбиения экспериментальной выборки на одно- 
родные и упорядоченные классы. В качестве меры соответствия прогноза и прогнозируе- 
мого показателя принимается значение условного минимума эмпирического среднего рис- 
ка по порогам, задающим границы упорядоченных классов. Показано, что при введении 
некоторых ограничений на класс функций потерь поиск условного минимума среднего 
риска по порогам сводится к последовательному решению задач одномерного поиска. 
Библиогр. 6 назв. 


УДК 621.391.199 
519.25 


Модифицированный метод наименьших квадратов при решении задач прогноза с дискрет- 
ной прогнозируемой величиной. Ю рков Е. Ф., Нагорнов В. С. Сб. «Распознава- 
ние образов. Теория и приложения». М., «Наука», 1977. 


Формулируется критерий качества, учитывающий специфику задач с дискретной про- 
гнозируемой величиной. Показано, что алгоритм прогнозирования, полученный в резуль- 
тате оптимизации введенного критерия, является модификацией метода наименьших квад- 
ратов. Библиогр. 3 назв. 


УДК 621.391.19 


Статистический анализ модели прогнозирования, использующей одномерные нелинейные 
преобразования. Ю рков Е. Ф. Сб. «Распознавание образов. Теория и приложения». 
М., «Наука», 1977. 


Исследуется сложность модели прогнозирования методами проверки статистических 
гипотез. Приводятся экспериментальные данные, полученные в результате статистического 
анализа модели при решении задач медицинского и сейсмического прогнозирования. 
Библиогр. 7 назв. 


УДК 621.391.199 
519.25 


Анализ связи между тяжестью состояния больного и его физиологическими показателями. 
Турбович И. Т., Виницкая Р. С., Гитис В. Г., Ерамянс. Г., Нагор- 
нов В. С., Сунгурян Н. Н., Юрков Е. Ф. Сб. «Распознавание образов. Теория 
и приложения». М., «Наука», 1977. 


Излагается подход к нахождению количественной связи между тяжестью состояния 
больного и его физиологическими показателями. В процессе исследования выбирается 
математическая модель связи, отбираются наиболее существенные функциональные по- 
казатели, проводится проверка возможности упрощения выбранной модели связи и про- 
изводится статистический анализ данных. Приводятся экспериментальные результаты, 
полученные на материале 145 больных, страдающих хронической пневмонией. Библиогр. 
5 назв. Иллюстраций 3. 


УДК 621.391.19 


Применение метода одномерных нелинейных преобразований для прогнозирования ес- 
тественного режима нефтяного пласта. Бадалов Т. А. Сб. «Распознавание образов. 
Теория и приложения». М., «Наука», 1977. 


На основании метода одномерных нелинейных преобразований решается задача 
прогнозирования естественного режима пласта по совокупности геолого-физических при- 
знаков, имеющихся в начальный период разработки нефтяных месторождений. Опреде- 
ляется характер влияния каждого из этих признаков на прогноз, а также их значимость. 
Используются данные, полученные на нефтяных залежах Азербайджана, разработка ко- 
торых осуществлялась при очень уплотненной сетке скважин на естественном режиме. 
Библиогр. 7 назв. Иллюстраций 2. 


УДК 621.391 


К использованию алгебраических приемов идентификации систем для анализа речи. 
Вайншток А. П., Кабанова Е. И., Махонин В. А. 06. «Распознавание об- 
разов. Теория и приложения». М., «Наука», 1977. 


Описаны алгоритмы для системы идентификации параметров и состояний настраивае- 
мой модели порождения слогов. Приведены правила оценивания отдельных параметров 
речеобразования. Библиогр. 10 назв. Иллюстраций 2. 
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УДК 621.391.532.781 


Алгоритм совместного рекуррентного оценивания параметров речевых сигналов. На- 
заров М. В., Прохоров Ю. Н. Сб. «Распознавание образов. Теория и приложе- 
ния». М., «Наука», 1977. 


Методами теории нелинейной марковской фильтрации синтезирован рекуррентный 
алгоритм совместного слежения за динамикой модели речевого тракта и параметрами 
сигнала звукового возбуждения. Указаны способы упрощения схемы устройства опти- 
мального слежения. Библиогр. 10 назв. 


УДК 621.391.192.5 


Элементы кодовой структуры речи. Сорокин В. Н. 06. «Распознавание образов. Тео- 
рия и приложения». М., «Наука», 1977. 


Рассматривается кодовая структура речи, включающая в себя акустические и арти- 
куляционные признаки, фонемы, слоги, слова и фразы. Вычисляется корректирующая 
способность фонем и слов. На основе сведений о роли фактора сложности в процессах 
речеобразования и восприятия, а также аналогий с теорией кодирования рассматриваются 
некоторые приемы анализа речевого сигнала и декодирования его фонетического состава. 
Установлено свойство неприводимости большинства слов, позволяющее членить слитный 
поток речи на слова. Приводится схема параллельного декодирования всех уровней ре- 
чевого кода, в которой основным вычислительным механизмом является алгоритм после- 
довательного декодирования. Таблиц 3. Библиогр. 24 назв. Иллюстраций 9. 


УДК 621.396.64 


О типологических особенностях слога. Потапова Р. К. 06. «Распознавание образов. 
Теория и приложения». М., «Наука», 1977. 


Показывается, что использование слога в качестве опорной элементарной структуры 
при автоматическом распознавании речи обусловлено, прежде всего лингвистическими за- 
кономерностями. Предлагается при этом учитывать специфику слитной речи на базе кон- 
кретной языковой системы, а при анализе и описании признаков слога учитывать инте- 
гративный характер слога, как целостной структуры. Показывается, что для ряда гер- 
манских языков элементарная слоговая структура не исчерпывается универсалией в рам- 


ках СГ. Подчеркивается информативность временных параметров при выявлении харак- 
тера слоговой сегментации речевого континуума. Библиогр. 9 назв. 


УДК 621.391:534.784 


Рекуррентное оценивание параметров речевых сигналов. Прохоров Ю. Н. Сб. «Рас- 
познавание образов. Теория и приложения». М., «Наука», 1977. 


Рассматриваются рекуррентные алгоритмы оценивания параметров авторегрессион- 
ной и многоэтапной моделей речевых сигналов. На основе теорий фильтрации и интер- 
поляции марковских процессов разработаны упрощенные алгоритмы, допускающие срав- 
нительно простую техническую реализацию. Доказана сходимость в среднеквадратиче- 
ском предложенных алгоритмов и приведены результаты цифрового моделирования, вы- 
полненного на реальном сигнале. Библиогр. 19 назв. Иллюстраций 6. 


УДК 621.391.199 


Процедуры представления сигналов, искаженных нестационарными помехами. Каба- 
нова Е. И. Сб. «Распознавание образов. Теория и приложения». М., «Наука», 1977. 


Рассматриваются приемы представления экспериментальных кривых смесью экспо- 
ненциальных функций. Представление определяется методом «анализа через синтез». 
Параметры представления оптимизируются циклическим поиском по частным показате- 
лям качества. В случае равномерного пгума независимость оптимизаций по частным пока- 
зателям качества обеспечивается фильтрацией сигнала и его модели режекторными филь- 
трами. При нестационарных шумах запись расчленяется на участки доминирования от- 
дельных компонент сигнала. Описана программа переработки описания сигнала в пред- 
ставление для случая нестационарных шумов. Библиогр. 5 назв. Иллюстраций 2. 


УДК 621.391 
Выделение скрытых периодичностей и формантный анализ речи. Гробман М. 3., Ту- 
маркин В. И. Сб. «Распознавание образов. Теория и приложения». М.,#«Наука», 1977. 


в Описывается алгоритм вычисления формантных параметров речевого сигнала, осно- 
ванный на представлении анализируемых участков сигнала суммой экспоненциальных 
функций с комплексными амплитудами и частотами. Библиогр. 6 назв. Иллюстраций 1. 
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ГДК 621.391.144 


Элементы формантного анализатора. Книппер А. В., Махонин В.А., Ор- 
лови. А. Сб. «Распознавание образов. Теория и приложения». М., «Наука», 1977. 


Рассматривается вопрос синхронного с импульсами основного тона измерения часто- 
ты формант. Процесс измерения разбивается на три этапа: выделение формантных коле- 
баний, обнаружение импульсов смыкания связок, измерение частоты во временнбм окне 
на большой длительности. Обсуждаются особенности реализации каждого из этапов. 
Библиогр. 10 назв. Иллюстраций 4. 


УДК 621.391.193 


Устройство выделения и ввода значений частоты основного тона голоса в ЭВМ. С а- 
в ельев В. П. Сб. «Распознавание образов. Теория и приложения». М., «Наука», 1977. 


Описывается устройство выделения частоты основного тона, удовлетворяющее тре- 
бованиям совместной работы с устройством ввода речевых признаков в ЭВМ, находящимся 
в опытной эксплуатации. Приведены блок-схема устройства и предварительные резуль- 
таты. Таблица 1. Библиогр. 8 назв. Иллюстраций 1. 


УДК 681.142:155 


Использование параллакса движения для восстановления пространственной ситуации без 
нахождения соответственных точек на последовательных изображениях сцены. Макси- 
мов В. В. Сб. «Распознавание образов. Теория и приложения». М., «Наука», 1977. 


Дается аналитическое выражение, позволяющее вычислять расстояния до произволь- 
ных видимых точек внешнего объемного мира по его плоскому (меняющемуся во времени 
в результате движения системы) изображению. Описана дискретная реализация этого 
метода на вычислительной машине и приведены результаты ее работы. Метод оказывается 
чрезвычайно чувствительным к качеству входного изображения. Показано, что наряду с 
простым усреднением отсчетов по пространству и по времени для повышения качества 
изображения может оказаться полезным создание внутри системы модели внешнего мира 
(постоянно улучшающейся в процессе наблюдения). Библиогр. 8 назв. Иллюстраций 3. 


УДК 621.391 


Проект диагносцирующей системы. Хай Г. А. (6. «Распознавание образов. Теория и при- 
ложения». М., «Наука», 1977. 
№ Рассматривается [процедура распознавания острых заболеваний брюшной полости, 
характеризующихся началом, быстрым прогрессирующим течением и необходимостью в 
большинстве случаев хирургического вмешательства. 
е На основании симптомов, имеющихся у больного, диагносцируются три типа син- 
дромов. Синдромы описаны в виде возможных сочетаний симптомов. Синдромный порт- 
рет — эталонный образ заболевания, описываемый перечнем синдромов. 
Диагностический процесс происходит после введения симптоматики больного в сис- 
тему. Если диагноз установлен, либо установлено несколько диагнозов с одной тактикой 
лечения, диагностика заканчивается. При несовпадающих решениях о тактике процеду- 
ра диагностики продолжается путем запроса системой врача о недостающей симптоматике. 
Врач имеет доступ к каждому этапу работы системы, и по его желанию она может быть 
закончена в любое удобное для него время. Библиогр. 10 назв. 


УДК 621.391.199 


Вариативная модель в опознавании образов. Файн В. С. Сб. «Распознавание образов, 
Теория и приложения». М., «Наука», 1977. 


! 


Множество всех возможных реализаций всех классов, фигурирующих в некоторой 
задаче опознавания, рассматривается как результат двухэтапного варьирования какой- 
либо одной из реализаций с помощью специального детерминистского оператора, зави- 
сящего от конечной совокупности параметров. Из такой трактовки вытекает ряд важных 
следствий, в частности возможность установления”’аналогии с задачей передачи сообще- 
ний по шумящему каналу, внесение некоторой определенности в проблему выбора приз- 
наков и др. Иллюстраций 1. 
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